数据分析与知识发现

数据分析与知识发现

2023年, 第7卷, 第8期　刊出日期：2023-08-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

综述评介

Select

实验规程的过程级语义表示研究综述*

付芸, 刘细文, 朱丽雅, 韩涛

数据分析与知识发现. 2023, 7 (8): 1-16. DOI: 10.11925/infotech.2096-3467.2023.0335

摘要

HTML ( 54 )

PDF(5477KB) ( 342 )

【目的】揭示实验规程过程级语义表示研究进展，发现尚需解决的关键研究问题，探究发展趋势。【文献范围】 使用相关主题词在Web of Science、arXiv、Engineering Village、中国知网、万方、维普中检索筛选出76篇文献，并参考知名实验规程专业期刊的提交要求和评审原则文档。【方法】在界定实验规程及其过程级语义表示相关概念基础上，从过程级语义表示方法、表示要素抽取方法以及相关表示数据应用三方面进行分析评述。【结果】实验规程的过程级语义表示研究整体处于发展初期，表示方法中表示框架尚未统一、表示要素各异，从以自然语言编写为主的实验规程中自动抽取过程级语义表示要素难度较大、效果一般，过程级语义表示的实验规程数据已在部分方向开展应用研究，整体可提升空间较大。【局限】 未详细阐述面向表示要素自动抽取技术细节及数据应用方法过程。【结论】未来应融合各类表示方法的优势以探索构建包含较完整要素的统一表示框架，探索基于先进智能技术的表示要素自动抽取方法研究，探索使用过程级语义表示的实验数据开展广泛应用研究。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

网络舆情预警研究综述*

迪路阳, 钟寒, 施水才

数据分析与知识发现. 2023, 7 (8): 17-29. DOI: 10.11925/infotech.2096-3467.2022.0866

摘要

HTML ( 38 )

PDF(888KB) ( 363 )

【目的】综述网络舆情预警的发展态势，总结网络舆情预警的研究内容与进展。【文献范围】 在Web of Science核心数据库和CNKI分别以舆情预警、网络舆情、舆情风险等相关词汇作为关键词进行检索，经阅读筛选，共选取52篇能够代表学科基础与前沿发展态势的文献进行综合述评。【方法】从网络舆情特性与风险评价指标的角度归纳网络舆情预警的基础，总结当前网络舆情预警的研究进展与不足之处。【结果】目前主要相关研究分别基于专家赋权、机器学习、传播过程、情感分析4个方法类别，均能在适用场景下准确预警网络舆情的风险等级，这对网络环境以及社会安定具有重要意义。【局限】 网络舆情风险应对研究中，针对政府管控对策的文献较多，出于对预警的侧重，只选择部分有关预警技术的文献进行分析。【结论】目前相关工作对网络舆情的概念过于细分，不具有普适性；风险评价指标尚需完善；验证过程相对片面，缺乏权威统一的标准来比较不同监测系统的优劣。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

基于深度学习与多分类轮询机制的高质量“卡脖子”技术专利识别模型——以专利申请文件为研究主体*

赵雪峰, 吴德林, 吴伟伟, 孙卓荦, 胡瑾瑾, 廉莹, 单佳宇

数据分析与知识发现. 2023, 7 (8): 30-45. DOI: 10.11925/infotech.2096-3467.2022.0721

摘要

HTML ( 35 )

PDF(1785KB) ( 358 )

【目的】解决传统单分类方法无法有效识别高质量“卡脖子”技术专利的问题。【方法】 以申请文件为研究主体，组合LSTM、Word2Vec及BERT得到多分类轮询的高质量“卡脖子”专利识别模型LSTM-Seq-BERT，并以IPC号为一级分类标签、授权状态为二级分类标签构建与模型对应的多级标签体系。【结果】对高质量“卡脖子”技术专利的识别精准度提高至88.1%。【局限】 仅使用粤港澳大湾区专利，存在数据不平衡情况。【结论】本文构建的二级分类标签和轮询机制的模型可以提高对高质量“卡脖子”技术专利的识别准确率，具有实际应用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于神经网络的CEO表情分析及其对发布会媒体关注度的影响*

李洋, 赵吉昌

数据分析与知识发现. 2023, 7 (8): 46-61. DOI: 10.11925/infotech.2096-3467.2022.0787

摘要

HTML ( 26 )

PDF(3489KB) ( 340 )

【目的】基于神经网络检测实时视频流中的人脸表情以探究CEO在产品发布会上的情绪特征与媒体关注度的关联。【方法】收集34家电子产品公司566场产品发布会视频，通过 MTCNN等模型对产品发布会上CEO的表情进行检测，结合统计学分析方法对CEO的情绪表达模式进行探究，并采用关联性分析的方法探究CEO情绪特征对发布会媒体关注度的影响。【结果】不同公司CEO在发布会中存在迥异的情绪表达模式，可聚集为与企业主营产品类型密切关联的若干类簇，各类簇中也存在截然不同的情绪惯性表达以及影响趋势，且愤怒情绪占比与发布会媒体关注度均在95%置信度下显著正相关（Pearson相关系数均大于0.21）。【局限】 仅面向电子产品发布会，所采集的各公司数据分布也不均匀。【结论】应用深度学习实现了基于视频流的CEO表情快速检测，分析了CEO情绪表达模式及其影响，提出了CEO情绪管理对品牌传播等的建议。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于知识网络与多维技术创新地图的技术机会识别路径研究与应用*

冯立杰, 刘可辉, 王金凤, 张珂, 张世斌

数据分析与知识发现. 2023, 7 (8): 62-77. DOI: 10.11925/infotech.2096-3467.2022.0724

摘要

HTML ( 20 )

PDF(3297KB) ( 329 )

【目的】利用知识网络与多维技术创新地图精准识别技术机会，进而提升企业的核心竞争力。【方法】通过现有专利数据挖掘技术关键词并划分创新维度，通过构建知识网络研判技术关键词及创新维度的重要度，进而结合多维技术创新地图进行技术机会识别并确定优先级。【结果】获取钛白废酸制备硫酸钡工艺2012-2021年的专利数据，系统阐述了所提方法的应用过程。研究结果表明，通过所提方法识别的5种技术机会能够为企业靶向选择创新方向提供有益的决策理论支持。【局限】 仅基于已有专利进行技术关键词的筛选，未从技术进步趋势角度予以综合考虑。【结论】基于知识网络与多维技术创新地图进行技术机会识别，能够提高识别结果的精准性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向金融领域的风险事件演化关系建模与表示方法研究*

刘政昊, 张志剑, 陈帅朴, 曾曦

数据分析与知识发现. 2023, 7 (8): 78-94. DOI: 10.11925/infotech.2096-3467.2022.1152

摘要

HTML ( 14 )

PDF(5211KB) ( 130 )

【目的】为解决金融领域事件演化分析中存在的演化模式与演化因素考虑不足等问题，研究基于事件关联和演化视角对金融风险事件演化关系进行建模与表示，并构建事件演化图。【方法】结合事件演化模式建模分析演化条件，并提出基于近邻查询Ball-Tree的事件演化图生成算法，以实现对金融风险事件的有效表示。【结果】对“恒大集团”相关风险事件进行实证分析，结果表明事件演化关系强度为0.2时，在629个具有演化关系的事件对中，共探测到489个正确的演化关系，准确率为77.74%。【局限】 限于篇幅，未对金融风险事件的识别过程进行详述，同时未能考虑金融事件的动态更新问题。【结论】本文提出的建模方案能够分析事件间潜在的多种关联关系，重现风险事件发展过程中的重要情景，对于厘清可能存在的演变路径和演化规律提供了有效的技术支持。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多维度图卷积网络的旅游评论有用性识别*

刘洋, 丁星辰, 马莉莉, 王淳洋, 朱立芳

数据分析与知识发现. 2023, 7 (8): 95-104. DOI: 10.11925/infotech.2096-3467.2022.0814

摘要

HTML ( 13 )

PDF(1378KB) ( 367 )

【目的】利用深度学习模型识别旅游评论的有用性，给予消费者和酒店管理者商业决策参考。【方法】提出多维度图卷积网络和多模态融合的有用性识别模型，使用BERT和MAE模型分别对文本和图片进行预训练，利用多维度图卷积网络对多模态特征进行建模，再通过注意力机制捕捉多模态间的交互信息，最后融入文本特征进行评论有用性识别。【结果】在Yelp数据集上进行对比实验，结果表明所提模型识别准确率为73.21%，相较于传统单模态和现有多模态模型平均提升了10%。【局限】 仅在Yelp数据集上尝试文本和图片两种模态，其他数据融合以及更多模态有待研究。【结论】所提模型将多维度的图卷积网络和多模态特征融入评论有用性识别中，可以有效提升识别的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

领域双语数据增强的学术文本摘要结构识别研究*

刘江峰, 冯钰童, 刘浏, 沈思, 王东波

数据分析与知识发现. 2023, 7 (8): 105-118. DOI: 10.11925/infotech.2096-3467.2022.0476

摘要

HTML ( 9 )

PDF(1944KB) ( 130 )

【目的】准确把握社会科学学术文献的核心内容，提升文献摘要的语步结构识别效果。【方法】使用预训练语言模型在多种图书情报领域核心期刊的双语摘要数据上进行实验，提出一种分别在模型的预训练、微调、模型输出层使用领域数据进行增强学习的方法。【结果】充分利用领域双语数据进行增强预训练、微调以及融合双语句子分类概率能够在单期刊数据上将摘要结构识别的F1值提升约1~2、1、0.5~1个百分点。【局限】 限于计算资源，未在跨语言预训练模型上进行领域数据的继续预训练并测试性能。【结论】研究充分利用学术文献中的双语资源，有效提升了摘要语步结构识别效果，对快速了解文献内容、促进科学交流具有一定意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于用户多重兴趣漂移特征权重的网络出版物推荐研究*

钱聪, 齐江蕾, 丁浩

数据分析与知识发现. 2023, 7 (8): 119-127. DOI: 10.11925/infotech.2096-3467.2022.0802

摘要

HTML ( 12 )

PDF(1065KB) ( 277 )

【目的】基于用户多重自适应偏好特征时间权重改进强化潜在因子模型，以提高推荐的准确性。【方法】基于时序潜在因子模型进一步融合兴趣遗忘特征、出版物兴趣重合度以及评论文本语义层面的相似度等用户不同时间段的偏好，通过偏好权重对用户评分矩阵加权并分解，以捕捉用户在每个时间对不同出版物的多重偏好变化。【结果】在三个数据集中与4种基于时序矩阵分解基线方法进行对比实验，结果表明本文模型的准确率相较于TDMF平均提高9.26个百分点，相比TMRevCo提高17.35个百分点，相比BPTF提高38.63个百分点，相比TCMF提高26.24个百分点，说明本文模型对于用户时序特征抽取更为准确。【局限】 由于兴趣漂移演变分析依赖用户历史数据，当历史数据量过于稀疏时需采用用户其他信息进行冷启动。【结论】本文模型考虑用户的遗忘特征和评论演化特征，对于用户时序兴趣漂移的捕捉更有效，更能反映用户对出版物兴趣的演化关系，提高了推荐的准确率。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

集成因子分解机及其在论文推荐中的应用研究*

杨辰, 郑若桢, 王楚涵, 耿爽, 王楠

数据分析与知识发现. 2023, 7 (8): 128-137. DOI: 10.11925/infotech.2096-3467.2022.0775

摘要

HTML ( 5 )

PDF(781KB) ( 85 )

【目的】针对现有论文推荐方法在处理论文作者映射关系稀疏和特征表达时存在成效不足的问题，开发一种基于因子分解机和集成学习的新型论文推荐框架。【方法】使用卷积神经网络、网络嵌入等方法处理数据获取特征表示，将特征矩阵输入因子分解机，引入随机子空间法集成训练模型，最后通过投票机制协同后输出推荐结果。【结果】基于CiteULike数据集的实验结果表明，本文方法的推荐精确率、准确率和F度量分别为72.6%、69.7%和76.2%，分别比基准算法提升高于20个百分点、15个百分点和9个百分点。【局限】 负采样过程中缺乏正负样本语义相似性的考虑，在模型的输入构造、特征处理模式方面有待进一步探究。【结论】集成因子分解机能在数据稀疏情况下实现特征的有效表示和利用，从而提升推荐效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

引入注意力机制的在线问诊推荐研究*

聂卉, 蔡瑞昇

数据分析与知识发现. 2023, 7 (8): 138-148. DOI: 10.11925/infotech.2096-3467.2022.0761

摘要

HTML ( 20 )

PDF(1289KB) ( 286 )

【目的】将深度学习引入医疗推荐领域，解决在线诊疗过程中患者“择医”面临的实际问题。【方法】利用患者问诊记录，采用层次注意力网络（HAN）构建医生与患者模型；设计基于“医患”适配度和患者“评分”的医生推荐方案。两个方案应用深度学习框架HAN构建医生和患者模型，并运用注意力机制加强“医患”向量间的交互，使医生名下的与求诊者病情相似的患者获得更高权重，据此计算医生推荐值。【结果】HAN能够从患者的疾病描述中提取表征病情的关键信息，通过提升建模质量，推荐命中率相较经典的Word2Vec模型提升了16.45个百分点；对于推荐值计算，基于注意力机制的“评分”方案的命中率最高（79.7%），显著优于基于余弦相似度的计算方案（74.9%）。【局限】 仅利用医生名下历史患者的问诊数据为医生建模，医生的口碑、资历、专长等信息未纳入模型。【结论】构建用户和推荐对象模型是设计推荐系统的关键，增强用户和推荐对象之间的特征交互可以提高推荐质量，本研究验证了基于深度学习的建模技术在推荐任务中的优势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于元分析的健康穿戴设备用户采纳行为研究：标准比较视角*

卢新元, 王雪霖, 陈泽茵, 卢泉

数据分析与知识发现. 2023, 7 (8): 149-162. DOI: 10.11925/infotech.2096-3467.2022.0754

摘要

HTML ( 6 )

PDF(1063KB) ( 102 )

【目的】聚合同一主题的多种研究结果，对当前健康穿戴设备用户采纳的实证研究进行元分析，以探究各个因素与健康穿戴设备用户采纳的真实关系。【方法】基于标准比较范式，将用户采纳的前因分为三阶段五维度（标准建立-体验感知-比较与结果），并采用元分析对56个独立研究进行再分析。【结果】标准建立过程中的各个变量均正向影响用户采纳，其中社会认同的作用更强；体验感知阶段，易用性对于医疗用途的健康穿戴设备用户采纳呈强正相关关系；比较与结果阶段，信任在多个前因变量中，对健康穿戴设备用户采纳的影响最大。【局限】 样本量尚未特别充分，因此部分变量的调节效应未得到一致性的结果，有待进一步的研究验证。【结论】除消费者创新与感知损失外，验证了其他用户采纳影响因素间的真实效应值，为今后构建新的理论模型奠定了基础。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于权重学术迹的中医药学者学术影响力评价方法研究*

马斯佳, 赵悦, 童元元, 孟凡红, 李志勇, 李彦文

数据分析与知识发现. 2023, 7 (8): 163-174. DOI: 10.11925/infotech.2096-3467.2022.0732

摘要

HTML ( 11 )

PDF(719KB) ( 242 )

【目的】研究改进的学术迹方法，对中医药领域学者进行学术影响力量化测评，促进和完善中医药人才评价体系。【方法】基于作者位置权重的学术迹方法，提出引入通讯作者贡献与期刊影响因子的学术迹权重计算方法，以进一步减少学术影响力结果的偏差。【结果】实验对比了4种学术迹方法，本文方法在结果值与排序上与其他学术迹方法有较明显差异。以获奖信息进行验证，两者结果一致，验证了所提方法的合理性与有效性。同时，本文对比了Q指标方法，实验结果验证了两者的一致性和互补性。【局限】 只针对中医药学者的英文发文进行基于权重学术迹的评价研究，未对学者的中文发文和中医药领域其他学者开展实验验证。【结论】本文方法较现有其他方法更为科学和合理，在中医药领域学者学术影响力研究上取得了有效评测。

图表 | 参考文献 | 相关文章 | 多维度评价