数据分析与知识发现

数据分析与知识发现

2023年, 第7卷, 第11期　刊出日期：2023-11-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

研究论文

Select

融合知识关联与时序传导的金融舆情风险预测模型^*

陈昊冉, 洪亮

数据分析与知识发现. 2023, 7 (11): 1-13. DOI: 10.11925/infotech.2096-3467.2022.0928

摘要

HTML ( 41 )

PDF(1240KB) ( 329 )

【目的】融合公司产业链信息学习针对特定公司的新闻表示，利用新闻表示以及公司间关联提升目标公司舆情风险预测效果。【方法】首先基于注意力机制与Bi-LSTM将公司关联知识嵌入金融新闻文本中，学习针对特定公司的金融新闻表示；然后基于公司间知识关联将金融新闻序列组织成新闻风险传导网络；最后利用时序图注意力网络建模新闻风险信息，通过公司间关联在时序上的传导模式并对风险信息聚合，预测目标公司的金融舆情风险。【结果】实验结果表明，在金融舆情风险预测任务上，本文方法的准确率达到0.624 6，AUC达到0.702 1，均优于基准方法。【局限】模型仅使用了上市公司间股票的统计知识关联，未使用公司间其他类型知识关联。【结论】本文方法能够有效地从金融新闻中学习目标企业相关的风险信息，以及舆情风险在公司关联中和随时间的传导特征，具有良好的金融风险预测性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

一种融合知识与Res-ViT的特征增强多模态情感识别模型^*

杨茹芸, 马静

数据分析与知识发现. 2023, 7 (11): 14-25. DOI: 10.11925/infotech.2096-3467.2022.1020

摘要

HTML ( 17 )

PDF(2024KB) ( 295 )

【目的】改善多模态特征提取的质量，提高对多模态舆情中用户情感的识别精度。【方法】针对文本模态，使用RoBERTa进行特征提取，并通过知识短语表征词典进行知识增强；针对图像模态，整合ResNet与视觉Transformer，提出Res-ViT模型；特征融合部分使用Transformer编码器，最后将多模态表示输入全连接层中进行情感识别。【结果】在MVSA-Multiple数据集上，情感识别的准确率、F₁值分别为71.66%、69.42%，较基准方法的最高值分别提高2.22、0.59个百分点。【局限】未使用其他数据集进一步验证模型的泛化性与稳健性。【结论】本文模型能够更好地提取并有效融合多模态特征，提升了多模态情感识别的能力。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于异构图卷积网络的网络社区敏感文本分类模型^*

高浩鑫, 孙利娟, 吴京宸, 高宇童, 吴旭

数据分析与知识发现. 2023, 7 (11): 26-36. DOI: 10.11925/infotech.2096-3467.2022.1250

摘要

HTML ( 24 )

PDF(1006KB) ( 175 )

【目的】基于图神经网络设计一种针对网络社区中敏感文本的分类模型，为治理网络舆情、维护网络社区信息安全提供帮助。【方法】在文本和词的基础上添加敏感实体构造异构图，引入网络舆情敏感信息的先验知识，然后利用BERT捕获文本的深度语义信息，使用图卷积网络（GCN）获取全局的共现特征，结合两者获得预训练模型和图模型的互补优势，适应长短文本之间的结构差异，最后根据基于网络社区舆情特点设计的敏感文本分类体系进行分类。【结果】在网络舆情敏感文本自制数据集上进行广泛的实验，实验结果表明，所提模型准确率达到70.80%，相较于基线模型至少提高3.52个百分点。【局限】在大语料库上构建的异构图过大会影响计算速度。【结论】所提模型能够适应网络社区敏感文本的结构差异，更好地捕捉文本中的敏感特征以提升分类性能，在敏感文本分类上有较好的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于块注意力机制和Involution的文本情感分析模型^*

林哲, 陈平华

数据分析与知识发现. 2023, 7 (11): 37-45. DOI: 10.11925/infotech.2096-3467.2022.0949

摘要

HTML ( 11 )

PDF(795KB) ( 215 )

【目的】解决卷积核宽度与词向量维度相同使得卷积层参数过多的问题，解决卷积操作的稀疏连接以及卷积的空间不变性和通道特异性不适用于文本任务的问题。【方法】提出一种基于块注意力机制和Involution的文本情感分析模型。模型先对分词后的单个词向量进行变形，将一维词向量变形为n×n词矩阵块，然后将句子中多个词的词矩阵块拼接成句子矩阵。句子矩阵经过块注意力机制层，增强了文本特征的上下文相关性及位序信息，再通过采用具有空间特异性和通道不变性的Involution对句子矩阵进行特征提取，最后使用全连接层进行文本情感分类。【结果】在三个文本情感分析公开数据集waimai_10k、IMDB、Tweet上的实验表明，所提模型的分类准确率分别达到88.47%、86.22%、94.42%，与词向量卷积网络和循环神经网络中的Bi-LSTM模型相比准确率分别提高6.47、7.72、9.35个百分点和1.07、1.01、0.59个百分点。【局限】所提模型在大型数据集上的分类准确度低于中小型数据集。【结论】引入块注意力机制和Involution的文本情感分析模型解决了参数量过多、卷积操作的稀疏连接以及卷积的空间不变性和通道特异性的问题，在不同数据集上，与传统卷积模型比较，本文模型的准确率有所提升。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于提示嵌入的突发公共卫生事件微博文本情感分析^*

赖宇斌, 陈燕, 胡小春, 黄欣

数据分析与知识发现. 2023, 7 (11): 46-55. DOI: 10.11925/infotech.2096-3467.2022.0751

摘要

HTML ( 12 )

PDF(1082KB) ( 269 )

【目的】为解决突发公共卫生事件初期微博数据量较少和口语化表达较多导致情感分析效果不佳的问题，提出一种基于提示嵌入和情感特征融合的微博情感分析模型。【方法】根据构建的情感词典提取微博文本情感信息；使用RoBERTa预训练模型提取语义向量和情感向量，将提示作为前缀嵌入语义向量，使用Transformer编码器和注意力机制分别提取语义特征与情感特征；然后使用焦点损失函数计算样本特征权重；最后，将语义特征与情感特征融合得到情感分析结果。【结果】以突发公共卫生事件中深圳新型冠状病毒感染疫情微博评论数据为例，所提情感分析模型的准确率和F1值分别达到93.46%和93.49%，较基准模型BERT分别提升6.78和6.97个百分点。【局限】微博数据存在大量图片和视频内容，未融合多个模态进行情感分析。【结论】所提模型基于提示嵌入与情感特征融合，可提升样本数据少时的情感分类效果，对其他同类情感分析研究具有借鉴意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于数据增强和多任务学习的突发公共卫生事件谣言识别研究^*

曾子明, 张瑜

数据分析与知识发现. 2023, 7 (11): 56-67. DOI: 10.11925/infotech.2096-3467.2022.1012

摘要

HTML ( 12 )

PDF(919KB) ( 234 )

【目的】通过引入多任务学习模型和数据增强方法，解决突发公共卫生事件情景下谣言识别任务数据不平衡且带标签数据量少的问题。【方法】首先提取突发公共卫生事件谣言文本特征构建替换词表，基于扩展同义词表构建CEDA方法对不平衡的谣言数据集进行增强，然后构建多任务学习模型融合突发公共卫生事件情感分类和谣言识别任务的领域信息，基于Transformer获取共享特征，通过BiLSTM模型获取谣言识别任务的独有特征，提升突发公共卫生事件谣言识别任务准确性。【结果】本文所提多任务学习模型的F1值达到0.972，比基于不平衡数据集的模型和单任务学习模型分别高出0.006和0.007，与DC-CNN模型相比F1值提升0.024。【局限】多任务学习模型的辅助任务仅包括情感二分类任务，需要对负面情感进行更细粒度的分类。【结论】基于领域数据增强和多任务学习的方法能够有效提高突发公共卫生事件谣言识别的分类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多模态异质图的社交媒体谣言检测模型^*

强子珊, 顾益军

数据分析与知识发现. 2023, 7 (11): 68-78. DOI: 10.11925/infotech.2096-3467.2022.0905

摘要

HTML ( 10 )

PDF(942KB) ( 127 )

【目的】验证谣言不同模态之间存在关联性，以提高谣言检测准确率，进而提出一种基于多模态异质图的社交媒体谣言检测模型。【方法】以社交平台上多模态的帖子为研究对象，首先通过预处理提取文本、图片两种模态信息及用户属性信息的特征表示，按照文本、图片、用户三者间的关联关系构建异质图，然后按照指定的元路径提取文本类型节点的嵌入表示，最后将其输入分类器中，判断其是否是谣言。【结果】在公开的数据集上进行实验，结果表明，所提模型在两个数据集上的准确率分别达到91.3%和93.8%，其他评价指标也高于基线模型。【局限】由于共享多模态谣言的三类节点会使所构建的异质图存在较大的稀疏性，所提模型更适用于小型的话题社区。【结论】谣言的不同模态之间存在关联性，所提模型利用该特征在多模态谣言检测中表现出良好的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合外部知识和用户交互特征的虚假新闻检测

刘帅, 傅丽芳

数据分析与知识发现. 2023, 7 (11): 79-87. DOI: 10.11925/infotech.2096-3467.2022.1144

摘要

HTML ( 13 )

PDF(965KB) ( 305 )

【目的】针对虚假新闻在社交媒体中肆意传播这一现象，通过融入外部知识特征和用户交互特征，构建多维度数据分类模型以提高虚假新闻检测的效率和准确性。【方法】提取虚假新闻文本的背景知识，通过维基知识图谱引入外部知识检测新闻内容与既有知识体系的内在一致性，同时根据心理学中相似效应理论分析传播链上的用户交互，通过改进图卷积网络的连接边权更真实地体现用户间相互影响，构建了一个融合外部知识、新闻内容、传播链特征与用户交互关系的多维度数据虚假新闻检测模型。【结果】在两个公开数据集Twitter15、Twitter16上验证模型的性能，与5个类似模型进行对比分析，该模型的准确率分别达到0.901和0.927。【局限】未考虑新闻附加内容中隐藏的知识信息和语言表达等其他特征，模型的可解释性也需要进一步提高。【结论】外部知识和传播链用户交互特征等多维度数据信息融合的检测模型能够有效提高虚假新闻的识别准确率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

失效专利视域语义分析与多维技术创新地图融合的技术机会识别^*

王金凤, 仵轩, 张定堂, 冯立杰, 张珂

数据分析与知识发现. 2023, 7 (11): 88-100. DOI: 10.11925/infotech.2096-3467.2023.0119

摘要

HTML ( 11 )

PDF(1266KB) ( 192 )

【目的】囿于研发资源及侵权风险的约束，通过搜寻失效专利并识别其蕴含的技术机会弥补企业自身资源短板。【方法】基于SAO语义分析确定具象技术领域拟解决的创新问题，基于核心失效专利筛选构建SAO知识库，基于多维技术创新地图进行技术机会识别。【结果】获取煤矿除尘领域相关专利数据，系统阐述本文方法的应用过程。研究结果表明，通过此方法识别的三种技术机会能够为企业降低自身资源短板提供决策理论支持。【局限】仅针对煤矿除尘技术领域展开研究，需增强普适性；所构建核心失效专利的评价指标体系不够全面，需增强系统性；缺乏所构建技术机会识别路径优于其他路径的实证研究。【结论】面向失效专利视域融合语义分析与多维技术创新地图进行技术机会识别，能够提升识别结果的准确性及可应用性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于文本语义与关联网络双链路融合的用户生成内容价值早期识别研究^*

王松, 骆莹, 刘新民

数据分析与知识发现. 2023, 7 (11): 101-113. DOI: 10.11925/infotech.2096-3467.2022.0993

摘要

HTML ( 6 )

PDF(1797KB) ( 214 )

【目的】为缓解虚拟社区中对价值性内容识别的时滞性、过载性问题，通过构建特征体系与算法模型提升早期识别的效率。【方法】综合考量用户生成内容早期的文本语义和用户、文本间显隐性交互关联的网络结构，构建双链路融合算法进行处理。在文本语义链路中，采用BERT+BiLSTM+Linear获取深层语义特征；在关联网络链路中，采纳GAT处理节点的浅层数值特征和关联特征；继而利用卷积层优化上述双链路的融合信息，最终完成价值早期识别的目的。【结果】所构建的双链路融合模型对魅族Flyme社区数据的处理准确率为89.80%，相较于单独的文本语义链路和关联网络链路，准确率分别提高了3.45和3.20个百分点。相较于其他基线模型，准确率和F1值均有不同程度的提升。【局限】模型的泛化能力有待进一步提升，缺乏对图片、外部链接等富文本内容的深入挖掘。【结论】基于深度学习融合模型对序列型文本语义、拓扑型网络结构进行综合性处理，能进一步提高对价值性文本早期识别的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融入节点和边缘重要性分析的社区发现算法^*

高光亮, 李亚洲, 袁明, 王群

数据分析与知识发现. 2023, 7 (11): 114-124. DOI: 10.11925/infotech.2096-3467.2022.1033

摘要

HTML ( 7 )

PDF(1602KB) ( 211 )

【目的】分析网络中节点和边缘的重要性，提升基于目标函数优化的社区发现算法的性能。【方法】依据三角结构计算节点重要性，删减节点构建核心网络；依据三角结构计算边缘重要性，引入加权模块度指标，从局部视角制定算法优化指标，实现核心网络社区发现；基于此扩展得到原始网络的真实社区结构。【结果】在一系列合成网络和4个真实网络数据集上的实验表明，本文算法相较于6种对比算法，整体性能在平均F1分数指标上提升19.85个百分点，在稠密网络上优势更加明显。【局限】算法的执行需要预先给定一个参数的取值。【结论】本文算法同时实现了非重叠和重叠社区发现，能提高社区发现的有效性和效率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

在线健康社区用户知识共享与隐藏行为的演化博弈研究^*

黄子萱, 熊回香

数据分析与知识发现. 2023, 7 (11): 125-139. DOI: 10.11925/infotech.2096-3467.2022.1030

摘要

HTML ( 10 )

PDF(1643KB) ( 221 )

【目的】研究健康用户知识共享与隐藏的决策规律，以提升用户整体健康知识水平。【方法】对潜水者、共享者决策知识共享与隐藏行为的过程构建演化博弈模型，采集知乎平台中乳腺癌话题数据对模型参数赋值，通过Matlab进行数值实验，探讨各参数变化对结果的影响。【结果】健康用户从知识隐藏向知识共享转化的过程受知识创新收益、情感收益、社区奖励的正向影响和隐私风险、编码成本的负向影响，且两类用户对不同因素的敏感性不同。【局限】未能设置非线性效用函数，人工标注数据可能存在误差。【结论】从影响决策的因素入手，为社区推动用户从知识隐藏转向知识共享提供管理启示。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

科研人员跨学科性与个体学术影响力的因果效应分析^*

翟羽佳, 周睿, 李岩, 毛志刚

数据分析与知识发现. 2023, 7 (11): 140-157. DOI: 10.11925/infotech.2096-3467.2022.1167

摘要

HTML ( 12 )

PDF(1373KB) ( 236 )

【目的】探讨科研人员跨学科性与个体学术影响力之间的关系，为科研人员跨学科发展提供参考。【方法】选择Semantic Scholar数据库中的69 759位科研人员数据，采用布里渊指数测度指标，分析引用-发文-合作三个维度上科研人员的跨学科性，利用广义倾向值匹配法分析科研人员跨学科性对个体学术影响力的因果效应。【结果】在跨学科引用维度上，科研人员发文量和h指数随跨学科引用量上升而同步上升，超过极值点（1.5和0.05）后随之下降；但跨学科引用对篇均被引量无影响。在跨学科发文维度上，随着科研人员在更多学科内发表文献，发文量、h指数呈上升趋势，篇均被引量呈震荡式上升。在跨学科合作维度上，科研人员发文量随跨学科合作的增长而不断增长，但增长量逐渐递减；但跨学科合作对h指数、篇均被引量并不会产生影响。【局限】缺少对测度指标每一维度权重的考量，且未建立综合三个不同维度的跨学科性指标的评价体系。【结论】科研人员跨学科研究能够提高自身的学术影响力，但这种积极影响是有条件、有范围的。同时，不同维度的跨学科性评价方式具有差异性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究^*

李英群, 李亚菲, 裴雷, 胡志伟, 宋宁远

数据分析与知识发现. 2023, 7 (11): 158-171. DOI: 10.11925/infotech.2096-3467.2022.1026

摘要

HTML ( 16 )

PDF(22765KB) ( 116 )

【目的】精准识别与提取学术期刊文献中的图表，促进学术图表的传播和交流。【方法】在YOLOv5算法中引入ECA通道注意力模块，并优化PAN模块为BiFPN，随机抽样13个学科门类1 300篇学术期刊文献作为实验数据，利用poppler-0.68.0将其转换为高质量的图片，并基于该数据集验证新算法性能。【结果】相较于次优值，新算法F₁值提高1.99个百分点，达到99.88%。【局限】数据标注范围与数量有待扩大，可覆盖至更多场景。【结论】基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法能够有效提高特殊场景下的图表识别与提取效果。

图表 | 参考文献 | 相关文章 | 多维度评价