数据分析与知识发现

数据分析与知识发现

2023年, 第7卷, 第12期　刊出日期：2023-12-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

综述评介

Select

文本神经语义解析方法研究进展

沈凌云, 乐小虬

数据分析与知识发现. 2023, 7 (12): 1-21. DOI: 10.11925/infotech.2096-3467.2022.1074

摘要

HTML ( 10 )

PDF(1378KB) ( 133 )

【目的】对近10年利用神经网络研究文本语义解析的方法进行归纳和评述。【文献范围】以谷歌学术和中国知网为检索平台，分别以“Neural Semantic Parsing”和“神经语义解析”为关键词，筛选2010年-2022年的相关文献及其重要引文进行分析。【方法】对神经语义解析方法按照技术路径进行分类，剖析各技术路径的基本思路，对比分析各技术方法在数据、性能、应用目标等方面的异同点，归纳文本神经语义解析技术存在的问题及发展趋势。【结果】将现有神经语义解析方法归纳为序列到序列、借助中间形式以及语义单元分解与组合三种类型，后两种方法是对第一种方法的改进。中间表示形式，如语义草图、规范话语和少样本神经语义解析，是当前研究的主要关注点。【局限】主要从方法论上对现有研究思路进行归纳分析，对于神经语义解析模型内部实现机理未做细致阐述。【结论】目前神经语义解析方法在文本语义解析中能够获得最佳性能，面向具体应用设计针对性的神经网络模型是当前主流做法，但语义解析效果与实际应用仍然有一定差距。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

金融市场文本情绪研究综述^*

李合龙, 任昌松, 柳欣茹, 汪存华

数据分析与知识发现. 2023, 7 (12): 22-39. DOI: 10.11925/infotech.2096-3467.2022.0890

摘要

HTML ( 11 )

PDF(1010KB) ( 172 )

【目的】通过文献梳理分析和总结金融市场文本情绪发展现状，为后续研究提供参考。【文献范围】以“金融市场”“文本情感分析”“文本情绪”“投资者情绪”等以及相应英文为关键词在中国知网、Web of Science、谷歌学术等学术平台进行检索，延伸阅读相关文献，共筛选115篇文献进行综述。【方法】根据金融文本数据类型对提取的文本情绪分类，介绍文本情感分析框架，最后梳理文本情绪对金融市场影响的相关研究成果。【结果】金融文本情绪分为信息报告情绪、新闻媒体情绪和社交媒体情绪三种，在构造情绪指标时，应用较多的分析方法有基于词典的方法和基于机器学习的方法，三种文本情绪都对金融市场产生了一定的影响。【局限】筛选文本情感分析框架相关文献时，由于文本分析方法在各领域具有一定通用性，这类文献不完全聚焦于金融市场。【结论】在构建金融文本情绪指标时，应根据文本特点、研究条件、研究目标等的不同选择合适的情感分析方法。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

突破式创新发明人的提前发现：基于专利知识图动态学习的预测^*

余博文, 刘向

数据分析与知识发现. 2023, 7 (12): 40-51. DOI: 10.11925/infotech.2096-3467.2023.0219

摘要

HTML ( 10 )

PDF(1397KB) ( 153 )

【目的】利用发明人的合作和引用关系特征，提前发现突破式创新发明人。【方法】首先定义突破式创新发明人的度量指标，然后通过分析挖掘发明人合作和引用关系特征，基于专利知识图动态学习建立预测发明人未来创新类型的统计学习模型，实现突破式创新发明人的提前发现，最后对突破式创新发明人的关键特征进行分析。【结果】基于真实专利数据的实验结果表明，使用随机森林模型预测的准确率达到83.51%，对突破式创新发明人和延续式创新发明人预测的准确率分别为85.99%和81.40%。模型在预测突破式创新发明人时，发明人的合作和引用相关特征的重要性评分排名均靠前。【局限】未完全解决专利的技术创新度量在零值附近的歧义问题，本文对因该问题导致无法识别创新类型的发明人进行过滤。【结论】本文模型可以通过多维度特征对突破式创新发明人进行提前发现，并且在预测发明人未来创新类型时，发现发明人的合作和引用相关特征均很重要。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于知识重组和变异的技术新颖性评估——以数字医疗技术为例^*

杨思洛, 江曼, 高强

数据分析与知识发现. 2023, 7 (12): 52-63. DOI: 10.11925/infotech.2096-3467.2022.1133

摘要

HTML ( 10 )

PDF(1084KB) ( 129 )

【目的】针对技术新颖性评估中使用替代指标而忽略新颖性内涵的问题，从技术新颖性的来源和形成机理出发，构建一种基于知识重组和变异的技术新颖性评估方法。【方法】从微观层面剖析技术新颖性来源，厘清“知识单元-知识重组与变异-技术新颖性”的内在逻辑关系；围绕知识重组与变异两条主线，从知识来源多样度、重组方式新颖度和知识变异突破度三个层面构建技术新颖性评估指标；进一步地以数字医疗技术为例验证该方法的可行性与有效性。【结果】识别出数字医疗领域新颖性较高的技术及其新颖性分值；本文方法比常用的被引量方法、余弦相似度方法、知识多样性方法在查全率上分别提升了约23.19、5.24、9.69个百分点；在相同数据集中可以正确识别到更多的高新颖性技术。【局限】未对不同知识单元分类体系下的知识单元划分进行探讨。【结论】知识重组和变异是技术新颖性来源的两大途径，本文提出的技术新颖性评估方法可以更好地识别出新颖度较高的技术。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多语义信息融合的事件检测模型^*

魏建香, 陆谦, 韩普, 黄卫东

数据分析与知识发现. 2023, 7 (12): 64-74. DOI: 10.11925/infotech.2096-3467.2022.0549

摘要

HTML ( 11 )

PDF(1702KB) ( 159 )

【目的】通过融合多类语义信息，提高事件检测任务准确性。【方法】首先，利用Bi-LSTM模型编码非关系类语义信息；其次，基于关系类语义信息生成关系图，利用多尺度卷积神经网络捕获邻接矩阵蕴含的空间信息并与词向量进行融合；最后，构建Gated-GCN模型动态聚合并更新相邻词向量间的关系类语义信息，增强词向量的表征能力。【结果】基于ACE05基准数据集，与现有主流事件检测模型进行对比实验，所提模型的F1值达到76.3%，相较于最优的基准模型提升1.2个百分点。【局限】研究基于基准数据集，需要在一般的数据集上进行模型验证。【结论】融合多类语义信息能够有效提升事件检测性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

跨市场跨来源情感分析驱动的人民币汇率预测研究^*

操玮, 廖臣悦, 张福伟

数据分析与知识发现. 2023, 7 (12): 75-87. DOI: 10.11925/infotech.2096-3467.2022.1147

摘要

HTML ( 7 )

PDF(1166KB) ( 96 )

【目的】将跨市场跨来源情感分析引入人民币汇率预测模型中，提升汇率趋势的预测效果。【方法】构建融合跨市场跨来源情感分析的CCSA-DL模型：采用BERT-TextCNN模型分别提取中美两国官方媒体与个人投资者的深层情感特征，并与基于LSTM的汇率时序深层特征实现融合共享，在此基础上借助SVM模型实现汇率预测。【结果】与基线模型相比，CCSA-DL模型在预测指标和经济收益的表现上均达到最优，尤其与LSTM预测模型对比，在3个评价指标上有平均约16.77%的提升。【局限】情感分析数据来源有待进一步拓展和优化。【结论】引入跨市场跨来源情感分析的CCSA-DL模型具有较优的汇率预测效果和经济收益。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于图像模态迁移与集成的中国陶瓷派系识别模型构建研究^*

石斌, 王昊, 邓三鸿

数据分析与知识发现. 2023, 7 (12): 88-101. DOI: 10.11925/infotech.2096-3467.2022.1080

摘要

HTML ( 9 )

PDF(4279KB) ( 28 )

【目的】构建中国陶瓷图像派系识别模型，实现对陶瓷图像派系的自动分类和识别，为陶瓷文化研究和数字化保护提供技术支撑。【方法】采用“端到端范式”构建模型，将迁移学习、集成学习应用到陶瓷派系识别中，并利用DCGAN算法进行样本平衡，根据各种陶瓷品的工艺和艺术风格，实现对10个陶瓷派系的识别与分类。【结果】基于端到端范式构建的陶瓷派系识别模型能够很好地提取图像特征并完成识别任务，且效果优于手工设计特征工程的基线模型。迁移学习使得预训练模型学习到的特征可以有效迁移到陶瓷派系识别这一细粒度的下游任务中，最优模型准确率达到73.16%；改进的Stacking集成方法融合上述模型学到的知识，最终准确率达到81.39%。【局限】本文所使用的数据来源于百度图片，数据来源较为单一，对模型的性能产生一定影响。【结论】基于迁移学习与集成学习的端到端图像模态分类模型能够有效地应用到陶瓷这一细粒度任务中，取得了较好的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多特征融合的微博细粒度情感分析^*

吴旭旭, 陈鹏, 江欢

数据分析与知识发现. 2023, 7 (12): 102-113. DOI: 10.11925/infotech.2096-3467.2022.1028

摘要

HTML ( 12 )

PDF(1114KB) ( 422 )

【目的】针对现有微博情感分析模型在微博文本相关特征提取和内容情感信息挖掘中存在的不足，提出RB-LCM模型以提升微博文本的细粒度情感分析效果。【方法】首先，采用RoBERTa动态编码微博文本字句特征；随后，利用Bi-LSTM与胶囊网络捕获微博语句更深层次的全局特征与局部特征；在此基础上，利用多头自注意力特征融合的方式对微博语句的相关多维度特征进行有效融合。训练过程采用改进的Focal Loss与FGM解决数据集标签不平衡以及模型的鲁棒性等问题。【结果】RB-LCM模型在SMP2020-EWECT数据集、NLPCC2013任务2数据集、NLPCC2014任务1数据集上的准确率与F1值分别为80.64%和77.41%、67.17%和51.08%、71.27%和58.25%，在二分类情感数据集weibo_senti_100k上的准确率与F1值则分别达到98.45%和98.44%，其表现均优于各数据集上先进的情感分析模型。【局限】进行情感分析时只结合文本信息，尚未涉及相关图片、视频、语音等信息。【结论】本文提出的RB-LCM模型能够有效提升微博细粒度情感分析效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合物品受众特征的深度学习推荐模型^*

王永, 陈俊谕, 刘岽, 邓江洲

数据分析与知识发现. 2023, 7 (12): 114-124. DOI: 10.11925/infotech.2096-3467.2022.1098

摘要

HTML ( 6 )

PDF(1357KB) ( 289 )

【目的】为有效捕获用户与物品交互数据中蕴含的协同信息和高阶特征，提出一种融合物品受众特征的深度学习推荐模型。【方法】利用注意力机制从物品与用户的历史交互信息中自适应地构建出物品的个性化受众特征，并将其作为对目标用户偏好预测的重要补充信息引入推荐模型中。同时，设计显式的特征交叉并引入残差连接以丰富高阶特征信息的多样性。【结果】在三个公开数据集上的实验显示，当推荐列表长度为10时，相对于次优对比方法，本文模型在Precision、Recall、F1和NDCG等4个性能评价指标上分别最高增长9.1、9.4、9.2、12.1个百分点。【局限】模型性能一定程度上依赖于用户与物品的历史交互数据量。【结论】本文模型能很好地兼顾泛化能力和记忆能力，展现出良好的推荐性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于元分析的在线健康信息分享意愿影响因素研究^*

李华锋, 温曜东

数据分析与知识发现. 2023, 7 (12): 125-141. DOI: 10.11925/infotech.2096-3467.2022.0902

摘要

HTML ( 4 )

PDF(1488KB) ( 28 )

【目的】明确既有文献对在线健康信息分享意愿的影响因素的作用强度，并探求不同情境变量的调节作用。【方法】纳入62篇研究文献，选择影响在线健康信息分享意愿的24个前因变量、5个调节变量所对应的245个独立效应值进行元分析。【结果】感知风险类5个变量对在线健康信息分享意愿无显著影响，其余19个变量均正向影响在线健康信息分享意愿，其中分享态度的影响最强，而疾病严重性的影响最弱；受教育程度、身份类别、社会文化、分享渠道和信息类型对部分上述关系产生调节作用。【局限】受限于文献数量，部分调节变量无法细致区分。【结论】本文在元分析结果的基础上，综合多种相关理论构建整体效应模型，获得了影响在线健康信息分享意愿的通论性知识，可为在线健康类平台运营优化和相关领域后续研究提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

伤害类犯罪案由推理辅助决策方法研究与实践

华斌, 位梦涵

数据分析与知识发现. 2023, 7 (12): 142-154. DOI: 10.11925/infotech.2096-3467.2022.1140

摘要

HTML ( 6 )

PDF(1600KB) ( 117 )

【目的】以故意伤害罪为例，提出一种基于知识图谱与D-S证据理论的伤害类犯罪案由推理与可视化方法。【方法】构建故意伤害罪犯罪知识本体并补充表示相关知识；以案件审讯记录为数据源，利用文本挖掘技术实现知识抽取并实例化形成案件知识图谱；利用D-S理论消除证据冲突，完成知识融合；利用自定义的推理规则实现案由推理结果并实现可视化。【结果】利用D-S证据理论实现真值发现准确率达到95.45%，验证了所提方法的有效性。【局限】方法受到审讯记录语言规范程度影响。【结论】本文方法不限定审讯过程及次数，能够提升多审讯记录知识融合的准确率，并形成基于客观事实的案由分析结果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

GKTR：一种融合图卷积拓扑特征和关键词特征的工程咨询报告检索模型^*

吕学强, 杜一凡, 张乐, 潘慧萍, 田驰

数据分析与知识发现. 2023, 7 (12): 155-163. DOI: 10.11925/infotech.2096-3467.2022.1099

摘要

HTML ( 7 )

PDF(919KB) ( 257 )

【目的】针对现有检索方法语义特征提取不充分的问题，提出一种融合图卷积拓扑特征和关键词特征的工程咨询报告检索模型。【方法】构建面向工程咨询报告的文本检索语料集，将语料传入BERT模型得到上下文向量，并通过图卷积网络和深度交互匹配模型得到第一个匹配得分；同时将段落关键词通过Word2Vec模型得到向量映射，与标题进行相似度计算得到第二个匹配得分。取两个匹配得分的平均值得到最终的匹配得分。【结果】GKTR联合多种文本交互匹配模型，相较于联合排序模型CEDR在P@20指标上最高提升3.06个百分点。【局限】实验数据主要来源于大型国企工程咨询公司的工程咨询报告，在其他领域中的效果有待验证。【结论】GKTR模型在面向工程咨询报告的文本检索语料库上，能够有效提升文本检索的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于知识图谱和读者画像的图书推荐研究^*

陈玲洪, 潘晓华

数据分析与知识发现. 2023, 7 (12): 164-171. DOI: 10.11925/infotech.2096-3467.2022.1065

摘要

HTML ( 10 )

PDF(2795KB) ( 186 )

【目的】将知识图谱和读者画像技术应用于图书推荐，针对数据稀疏和冷启动问题，提高图书推荐的精准度。【应用背景】应用于浙江工业大学图书馆管理系统，涵盖2020年5月-2022年5月的借阅数据，包含220 636条借阅记录，60 162本图书、15 916位读者。【方法】构建读者-图书知识图谱，结合图书主题模型和读者画像分别对图书之间的语义关联和读者偏好进行建模，挖掘读者-读者、读者-图书以及图书-图书背后的语义关联，针对性地改善数据稀疏和冷启动问题。【结果】实验结果表明，相较于对比的协同过滤算法，本文方法（基于GraphSAGE）在精准率指标上提升0.151，且在冷启动环境下的召回率达到51.44%。【结论】基于知识图谱和读者画像的图书检索技术能有效改善数据稀疏和冷启动问题，具有较好的应用前景。

图表 | 参考文献 | 相关文章 | 多维度评价