数据分析与知识发现

数据分析与知识发现

2024年, 第8卷, 第2期　刊出日期：2024-02-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

综述评价

Select

基于图神经网络的会话推荐方法综述^*

张雄涛, 祝娜, 郭玉慧

数据分析与知识发现. 2024, 8 (2): 1-16. DOI: 10.11925/infotech.2096-3467.2022.1282

摘要

HTML ( 13 )

PDF(1083KB) ( 300 )

【目的】 聚焦图神经网络技术，对会话推荐方法进行述评。【文献范围】 分别以“Session-Based Recommendation” “Graph Neural Network” “会话推荐” “图神经网络”为检索词，在Web of Science、中国知网等数据库中筛选出82篇国内外文献。【方法】 从框架、评价和趋势三个视角，对基于图神经网络的会话推荐方法进行归纳与对比，总结现有评价资源，讨论未来研究趋势。【结果】 图神经网络是当前实现会话推荐系统的主流技术，基于图神经网络的会话推荐方法主要围绕“会话图构建”、“会话图学习”和“会话兴趣表示”三个核心问题展开。【局限】 本文仅评述主流研究，并未将所有研究逐一列出。未从可解释性、鲁棒性、多样性和公平性等方面深入研究。【结论】 图神经网络是会话推荐系统的主流实现技术，未来可结合会话推荐的特定场景，通过发展图神经网络技术进一步改进现有研究不足。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

多文档摘要研究综述^*

宝日彤, 孙海春

数据分析与知识发现. 2024, 8 (2): 17-32. DOI: 10.11925/infotech.2096-3467.2022.1245

摘要

HTML ( 9 )

PDF(1034KB) ( 147 )

【目的】 调研和梳理相关文献，总结多文档摘要研究框架和主流模型。【文献范围】 以“Multi-Document Summarization”、“多文档摘要”为检索词，分别在AI Open Index、Paper with Code和CNKI数据库中进行检索，共筛选出76篇文献。【方法】 归纳多文档摘要技术实现的主流框架，依据关键技术对近年最新模型和算法进行分类概述，并对未来研究提出展望。【结果】 对比阐述了多文档摘要最新模型与传统方法的优缺点，并对高质量多文档摘要数据集、现阶段评价指标进行总结。【局限】 在实验结果对比部分，只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果，缺乏全部模型在同一数据集上的实验结果对比。【结论】 多文档摘要任务仍存在很多亟待解决的问题，如生成摘要的事实性不高、摘要模型的通用性差等。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

基于权利要求层级特征的专利相似度计算方法研究^*

向姝璇, 操玉杰, 毛进

数据分析与知识发现. 2024, 8 (2): 33-43. DOI: 10.11925/infotech.2096-3467.2022.1340

摘要

HTML ( 12 )

PDF(1058KB) ( 96 )

【目的】 现有专利相似度计算方法对专利文本独有特征利用不足，并一定程度上忽视了专利内容与结构的特性，本文就上述问题提出一种新的专利相似度计算方法。【方法】 通过权利要求层级特征生成技术组合句并进行信息核心度、信息丰富度的加权，兼顾技术内容范围与技术信息重点进行专利表示，在此基础上进行专利相似度计算。通过相关性指标与专利分类的对比实验证明方法的合理性。【结果】 本文提出的方法较同类基准方法可以更充分地表达专利信息，更适用于专利相似度计算；技术组合句的重构对模型表现提升作用明显，在该基础上的信息核心度、信息丰富度的加权能进一步提高模型表现。【局限】 仅在量子计算领域进行实验，技术领域是否会对方法表现造成影响仍待探究。【结论】 权利要求树与技术组合句的信息组织形式能够提高专利文本的利用效率；基于专利权利要求层级特征的技术组合句与对应信息特征加权能够提升专利表示效果及其在相似度任务中的表现。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于层次标签结构的标记分布学习^*

刘勘, 游美琳, 卫兰茜

数据分析与知识发现. 2024, 8 (2): 44-55. DOI: 10.11925/infotech.2096-3467.2022.1278

摘要

HTML ( 6 )

PDF(1649KB) ( 81 )

【目的】 考虑到标记分布学习中标记之间具有层次结构关系，将层次标签结构引入标记分布学习，提升标记分布学习的效果。【方法】 提出一种基于层次标签结构的标记分布学习算法（Hierarchy Label Distribution Learning Algorithm，H-LDL），根据样本在各层次的标签，利用条件概率描述粗、细两个层次的结构关系，并通过层次加权损失函数及其优化策略调节层次间标记的准确分布。【结果】 在两个公开数据集上进行实验，用了5个指标进行效果检测，其中，BU_3DFE数据集在Euclidean、Squared、K-L指标中较基线算法最低值分别降低了3.99%、1.07%、3.10%，Intersec和Fidelity指标较基线算法最高值分别提升了4.24%、0.67%，COMP数据集在Euclidean指标上降低了0.48%，在Squared、K-L指标未见明显降低，在Intersec和Fidelity指标上提升了0.45%、0.02%。【局限】 仅考虑了标签之间粗层次和细层次两层结构关系，当标签具有其他更复杂的层次结构关系时需进一步研究。【结论】 加入层次标签结构后标记分布误差有明显减小，有效提升了标记分布学习的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多元相似度融合的中文命名实体消歧方法^*

石水倩, 金晶, 沈耕宇, 王宝佳, 任妮

数据分析与知识发现. 2024, 8 (2): 56-64. DOI: 10.11925/infotech.2096-3467.2022.1190

摘要

HTML ( 7 )

PDF(997KB) ( 84 )

【目的】 解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题，提高实体消歧的准确率。【方法】 提出一种多元相似度融合方法，考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度，对实体进行刻画。【结果】 在维基百科农业方向数据集上的实验结果表明，本文所提方法准确率为89.7%，优于传统方法。【局限】 方法仅在特定领域适用。【结论】 本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率，能够解决特定领域的实体消歧问题，未来可将其应用于更广泛的实体消歧场景中。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于语步识别的科技文献结构化自动综合工具构建*

刘熠, 张智雄, 王宇飞, 李雪思

数据分析与知识发现. 2024, 8 (2): 65-73. DOI: 10.11925/infotech.2096-3467.2022.1330

摘要

HTML ( 4 )

PDF(1769KB) ( 44 )

【目的】 借鉴文献综合（Synthesis）的思想，利用人工智能技术构建科技文献结构化自动综合工具，以结构化的形式自动梳理文献集的研究脉络与研究骨架，揭示文献集的要点与看点。【方法】 提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路，即通过语步识别与研究问题、研究方法、研究进展短语抽取，自动揭示单篇文献中的关键知识内容；通过层次聚类与类簇标签生成，实现多篇文献的知识整理归纳；通过设计树形综合结构，指导结构化综合结果输出。【结果】 研发了结构化自动综合工具，能够自动综合文献集内容，并按照“研究问题-研究方法-研究进展”的树形结构揭示文献集的研究脉络与骨架。【局限】 由于聚类技术的限制，目前还存在聚类准确率不足、聚类簇个数难以确定等问题，影响了自动综合效果。【结论】 基于语步识别技术，构建面向实际应用的结构化自动综合工具，支持文献检索、自动综合、结果循证等功能，验证了基于语步识别实现结构化自动综合思路的可行性和有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

中文学术论文全文语步识别研究^*

杜新玉, 李宁

数据分析与知识发现. 2024, 8 (2): 74-83. DOI: 10.11925/infotech.2096-3467.2022.1284

摘要

HTML ( 7 )

PDF(1728KB) ( 38 )

【目的】 针对学术论文语步识别相关研究存在只能处理少量的语步、语步识别粒度较粗、缺少公开的语步分类数据集等问题，研究学术论文的全文语步识别，为机器自动理解论文内容提供基础。【方法】 基于BERT模型，采用多阶段微调的方式构建学术论文语步分类数据集，并提出一种融入章节标题文本的语步识别方法，在细粒度层面实现中文学术论文全文语步的识别。【结果】 实验结果表明，学术论文语步的22类别分类任务中，RoBERTa-wwm-ext模型总体准确率提升0.031，达到0.909，Micro-F1值提升0.022，达到0.837。【局限】 所构建的学术论文语步分类数据集尚存在少量数据不平衡问题，所提方法受限于论文质量，这些问题得到改进后，模型对语步的识别能力应能得到进一步提高。【结论】 所提方法取得了较高的语步识别准确率，研究成果可用于学术论文的自动理解、论文质量评价及论文语义检索等领域，对科技文献的有效利用具有重要作用。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

支持跨领域的中文虚假评论识别方法^*

谷岩, 郑楷洪, 胡勇军, 宋益善, 刘东屏

数据分析与知识发现. 2024, 8 (2): 84-98. DOI: 10.11925/infotech.2096-3467.2022.1347

摘要

HTML ( 8 )

PDF(1131KB) ( 76 )

【目的】 在多领域数据集的基础上，构建一种基于评论文本深层词关系语义信息提取的支持跨领域的中文虚假评论识别模型CFEE，解决传统识别方法较少考虑中文评论文本中存在不同领域数据差异性和领域虚假评论数据隐藏性的问题。【方法】 提出11条虚假评论数据集建立规则，建立多领域数据集；构建CFEE模型跨领域识别中文虚假评论，其主要功能为基于ERNIE预训练模型提取文本深层语义信息、基于评论文本情感属性识别评论隐藏性、基于卷积神经网络将文本信息投射到词关系维度、基于神经网络融合特征实现分类。【结果】 CFEE模型在多领域中文虚假评论数据集上的F₁值为91.52%，在手机、食品、服装、家电等单领域数据集上的F₁值分别为85.71%、79.59%、85.71%、85.00%，效果均显著优于现有模型。【局限】 存在人工标注的主观性。【结论】 本文所提识别方法能够有效地跨领域识别中文虚假评论。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

主题-引文融合视角下重要主题发现及知识流动路径研究^*

梁爽, 刘小平, 柴文越

数据分析与知识发现. 2024, 8 (2): 99-113. DOI: 10.11925/infotech.2096-3467.2022.1335

摘要

HTML ( 6 )

PDF(1762KB) ( 79 )

【目的】 理解与探究知识流动的内在机理与轨迹方向，为科技创新与发展、科学评价与决策提供参考。【方法】 以主题作为研究视角，建立知识网络，综合主题影响因子与节点交叉度构建主题重要度指标。基于识别得到的重要主题，分别从知识流入与知识流出视角，利用最大路径搜索算法实现知识流动路径的构建。【结果】 实证分析表明，所构建的指标能够对领域重要主题实现有效识别。在此基础上，构造知识流动路径，并得到具有最大知识传播量的领域路径。【局限】 知识节点间的知识流动强度度量具有一定的局限性，未能全面考虑到引用行为发生的动机、引用类型等实际引用情况的多变性。【结论】 综合分析两种视角下的流动路径可以发现，主题间具有较为普遍的双向知识流动，学科内部存在交流紧密的主题群，为从整体上把握研究主题的形成脉络与继承发展提供有益参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

网络结构变动对共词网络链路预测效果的影响研究^*

陈卓, 蒋茜茜, 张晓娟

数据分析与知识发现. 2024, 8 (2): 114-130. DOI: 10.11925/infotech.2096-3467.2022.1311

摘要

HTML ( 5 )

PDF(2103KB) ( 51 )

【目的】 研究共词网络结构变动对链路预测相似性指标预测效果的影响。【方法】 本文从Web of Science核心合集中随机获取5个学科2015-2020年的文献数据；根据不同的关键词频次，分别构建不同网络拓扑结构特征的共词网络；选取AA、CN、RWR、Katz等15个传统链路预测相似性指标，在各共词网络上进行链路预测实验，以此对比分析不同指标在网络结构变动环境下的预测效果。【结果】 不同学科中，共词网络的关键词频次越大，平均聚类系数越小，密度、网络传递性、平均度、平均度中心性、平均中介中心性、平均接近中心性越大，链路预测效果越差的可能性较大；反之，平均聚类系数越大，其余网络拓扑结构属性特征越小，链路预测效果越好的可能性较大。在所选取的15个相似性指标中，RWR指标在不同拓扑结构特征的共词网络中均表现最好；Katz指标的预测效果最稳定。从学科来说，各指标的预测结果在LAW学科中受网络结构变动的影响最大。【局限】 由于计算空间有限，仅采用单个分类方法和评价指标，并且仅停留在基于节点相似性指标的探讨，缺乏对其他类别指标（如基于似然分析和基于概率模型等指标）的研究。【结论】 从共词网络的关键词频次出发，探讨了各网络结构变动对链路预测效果的影响，为不同学科及不同大小的共词网络选取相似性指标提供了理论依据。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于时间序列异常检测的热点事件发现^*

杨欣谊, 马海云, 朱恒民

数据分析与知识发现. 2024, 8 (2): 131-142. DOI: 10.11925/infotech.2096-3467.2022.1316

摘要

HTML ( 8 )

PDF(2385KB) ( 45 )

【目的】 研究发现信息话题并找到激发公众讨论的现实事件。【方法】 构建共词网络检测社团表示话题，基于文档词与话题社团词的重合度计算文档话题向量并依据文档时间计算话题热度时间序列，借助STL分解时间序列并利用3σ原则检测异常，结合异常时点话题的高频词与高相关文档发现激发讨论的现实事件。【结果】 以新浪微博河南暴雨的相关发帖为例，发现涉及灾情态势、应急管理以及社会响应等方面的话题。异常检测与分析表明，灾情态势类话题的公众关注度最高，雨情预警及相应防汛行动等是热点事件；应急管理中的抢险救援工作与事故调查情况能够激发讨论；在社会响应方面，受灾者互救事迹、公益捐赠事迹易引发关注。【局限】 数据集较小，因而在异常时点检测的阈值判断中使用人工观察设定阈值的方式，在面对较大数据集时需要使用自动阈值确定方法。【结论】 话题热度时间序列的异常检测能够发现社平台的热点事件，且在舆情响应中，管理部门需要从救援、预防和恢复三方面出发，及时发布预警信息，公开救灾情况及事故调查情况等回应公众关切，并通过救援、互助、捐赠等事迹的宣传引导积极健康的舆论走向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于Stacking集成学习的用户付费转化意向预测方法研究——以免费增值游戏为例^*

李美玉, 刘洋, 王艺璇, 朱庆华

数据分析与知识发现. 2024, 8 (2): 143-154. DOI: 10.11925/infotech.2096-3467.2022.1261

摘要

HTML ( 4 )

PDF(1422KB) ( 39 )

【目的】 提出基于Stacking集成学习预测用户付费转化意向的模型，精准识别潜在付费用户。【方法】 基于Stacking集成学习方法构建付费意向预测模型，通过对比不同基模型组合预测效果确定基模型组合方案，借助游戏玩家行为数据集验证模型优越性，并进行可移植性验证。【结果】 本文模型预测准确率达90.88%，F1值90.71%，AUC值0.960 2，相对于对比模型中表现最差的Bayesian模型在三种指标上分别提升4.15个百分点、4.50个百分点和0.106 2。【局限】 无法预测玩家是否会产生非理性消费行为。【结论】 本研究验证了游戏付费情境下Stacking集成学习方法的适用性，多模型的融合可以获得稳定、准确的付费意向预测结果，并证明了模型在预测不同领域用户付费意向上具备可移植性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于关系融合和双向扩散模型的药物与靶标关系预测方法研究^*

张云秋, 黄麒霏, 朱祥

数据分析与知识发现. 2024, 8 (2): 155-167. DOI: 10.11925/infotech.2096-3467.2022.1225

摘要

HTML ( 8 )

PDF(1306KB) ( 30 )

【目的】 提出了一种新的药物与靶标关系预测方法来提升预测性能。【方法】 进一步丰富网络的语义信息，采用SNF、AVG和MAX方法分别对药物相似性网络和靶标相似性网络中的多种语义关系进行融合。基于关系融合后的相似性网络和已知的药物-靶标互作网络构建双向扩散模型，以实现药物与靶标关系预测。【结果】 实证研究表明，本文方法相较于主流的预测方法在AUC值指标上分别提升了2.2%和12.8%。并且通过对预测结果进行文献回溯，预测分数排在前10、20和30位的药物-靶标关系对中，可以分别在文献中找到3、8和11对药物-靶标的相关线索与证据。另外，SNF的融合效果最优，能够最大程度提高预测的性能。【局限】 未融合药物或靶标客观属性上的相似性，如药物的化学结构或靶标的序列结构相似性，并且针对新药物和新靶标关系发现的冷启动问题仍待解决。【结论】 本文提出的预测方法具有一定的优越性和有效性，可以为药物重定位以及其他生物医学实体的关系预测相关研究提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价