数据分析与知识发现

Select

杨亮亮, 姚双, 李跃艳, 杨玉香

数据分析与知识发现. 2025, 9(12): 1-17. https://doi.org/10.11925/infotech.2096-3467.2024.1175

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 通过节点多维属性嵌入与边自表示增强，提升链路预测精度，精准识别领域技术机会。【方法】 提出一种基于GCN两阶段特征构造的链路预测模型识别潜在技术机会，第一阶段学习节点嵌入表示，第二阶段强化边的表征；利用市场需求、技术竞争与政策导向匹配技术适用场景。【结果】 所提链路预测模型相比第一阶段仅凭GCN节点嵌入特征F1分数提升约30%，较第二阶段仅依赖相似性特征提升约10%；结合三维评价模型，共识别出4类、34对技术机会；敏感性分析锁定5种机会的应用场景，增强新能源汽车领域技术机会识别的适应性与可信度。【局限】 仅聚焦于新能源汽车技术领域，普适性和迁移性有待提升；技术机会识别侧重单一主题对，缺乏多主题复杂组合建模；未结合国际数据与跨领域研究进一步验证方法的通用性。【结论】 结合链路预测与多维指标评价方法，能够更精准、细粒度地识别技术机会。

Select

基于思维链提示大语言模型的多模态实体消歧研究^*

杨睿, 朱学芳, 王震宇

数据分析与知识发现. 2025, 9(12): 18-27. https://doi.org/10.11925/infotech.2096-3467.2024.1197

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 基于思维链提示探究大语言模型在多模态实体消歧任务中的可用性及有效性。【方法】 构建基于思维链提示的大语言模型提示模板，将先验知识与多模态信息输入大语言模型，辅助模型从候选实体集中识别出提及准确指代的实体。【结果】 在Wiki-MEL、Twitter-MEL和Weibo-MEL三个数据集中，与当前最先进的模型相比，本文模型的准确率分别提升15.1个百分点、11.5个百分点和4.1个百分点。【局限】 未详细探究不同提示词构造方法下大语言模型在多模态实体消歧任务中的性能变化。【结论】 基于思维链提示的大语言模型能够更好地适应不同情景下的多模态实体消歧任务，大语言模型在多模态实体消歧任务中有巨大的应用潜力。

Select

基于实体关系协同推理的零样本关系抽取模型^*

谢威, 夏鸿斌, 刘渊

数据分析与知识发现. 2025, 9(12): 28-40. https://doi.org/10.11925/infotech.2096-3467.2024.1132

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 运用深度学习与对比学习方法解决目前零样本关系抽取任务中完整实体信息与关系信息交互不够充分的问题。【方法】 提出一种基于对比学习的联合实体关系信息的零样本关系抽取模型（JCL）。首先，使用数据增强技术对原始的输入文本进行处理，增加模型得到的有效信息。其次，通过增强交叉注意力模块将实体对深度融合与关系联合处理，提取实体与实体间的交互信息和实体与关系语义间的交互信息，放大不同关系在嵌入空间内的细微差异。最后，使用交叉熵损失函数联合对比损失优化模型。【结果】 JCL模型与基线模型相比，在FewRel数据集上，不可见关系数m=5时，F1值提升了3.12个百分点；m=10时，提升了5.19个百分点；m=15时，提升了1.99个百分点。在Wiki-ZSL数据集上，m=5时，F1值提升了7.05个百分点，m=10时，提升了3.42个百分点，m=15时，提升了8.08个百分点。【局限】 研究领域数据集的语言较为单一，数量较少。【结论】 所提基于对比学习的联合实体关系信息模型针对零样本关系抽取任务在三个公开的数据集上的效果达到先进水平。

Select

基于大语言模型知识蒸馏的领域科学文献多标签自动分类研究^*

景浩, 吴新年, 李慧佳, 祝忠明

数据分析与知识发现. 2025, 9(12): 41-52. https://doi.org/10.11925/infotech.2096-3467.2024.1150

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 为领域科学文献的多标签分类任务提供一种高效且精确的解决方案，同时为大模型知识蒸馏技术在其他任务上的潜在应用提供参考。【方法】 利用大模型生成的标签对领域科学文献进行预标注，并通过知识蒸馏技术将大模型的知识迁移至小模型，从而训练多标签自动分类的轻量化模型。在摩擦学领域数据集上对模型进行评估，比较使用知识蒸馏技术训练的模型与人工标注标签训练的监督模型在准确性和F1分数上的表现。【结果】 使用大模型生成的标签训练的轻量化分类模型在多项性能指标上表现出色，准确率和F1分数分别超过0.96和0.86。【局限】 本研究在数据集的多样性、框架的鲁棒性以及标签质量方面仍有改进空间，应用场景也有待进一步扩展。【结论】 本研究证明了知识蒸馏技术在领域科学文献多标签分类中的应用价值，展示出高效率、低成本的优势。未来可进一步优化蒸馏过程，扩展其适用场景，为更多任务的高效处理提供支持。

Select

基于Rank一致性与假设检验方法的专利语义相似度测度效果评价方法及其应用^*

周健, 吕璐成, 李佳政, 赵亚娟, 曹梦云

数据分析与知识发现. 2025, 9(12): 53-68. https://doi.org/10.11925/infotech.2096-3467.2024.1043

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 构建专利语义相似度测度效果量化评价方法，实现多种专利语义相似度测度方法的客观评价。【方法】 基于同一分类层级下专利语义相似度更高的思想，兼顾时间与技术领域因素，构造用于相似度测度效果评估的数据集；基于Rank一致性指标和假设检验，形成针对不同向量化模型的专利语义相似度测度效果评价方法；并分别构造中文专利数据集和英文专利数据集，对所提出的评价方法开展实证分析。【结果】 选择基于L1距离的Rank一致性指标与U检验进行实证研究，基于不同向量化模型的Rank一致性指标的非正态性验证了采用U检验的合理性。基于中英文专利数据，选取三类模型开展实证评估，结果表明：BERT在中文专利语义相似度测度中表现较好，Llama 2 在英文专利语义相似度测度中表现突出。【局限】 本文方法虽然在统计学上具有较好的可解释性，但缺乏基于金标准的验证。【结论】 本文方法能够客观评价多种向量化模型的语义相似度测度效果，为专利分析工作选取专利语义相似度计算方法提供参考依据。

Select

基于多模态自适应特征融合的谣言检测^*

孟佳娜, 马腾飞, 赵迪, 刘爽, 王博林

数据分析与知识发现. 2025, 9(12): 69-80. https://doi.org/10.11925/infotech.2096-3467.2024.1227

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 解决多模态谣言检测中模态间关系挖掘不足的问题，自适应地聚合单模态和多模态特征。【方法】 提出一种基于多模态自适应特征融合的谣言检测模型。首先，分别利用预训练的BERT和EfficientNet模型提取文本和图像特征；其次，使用多模态协同增强网络生成模态间的互补增强信息；然后，通过跨模态相似性学习网络自适应地聚合单模态特征和多模态融合特征；最后，将聚合后的特征输入谣言检测网络进行检测，同时使用领域判别网络学习不同事件的通用表示。【结果】 在Twitter和微博两个公开数据集上，本文模型的准确率分别达到91.4%和90.3%，优于基线模型。【局限】 模型仅使用文本和图像数据进行谣言检测，未融合帖子中可能附加的视频或音频等信息。【结论】 本文模型可以充分挖掘模态间的关系并自适应地聚合单模态和多模态特征，提高检测的准确性。

Select

解纠缠感知双通道对比学习的捆绑推荐^*

王星, 袁卫华, 孟广婷, 陈宇, 宗臣

数据分析与知识发现. 2025, 9(12): 81-95. https://doi.org/10.11925/infotech.2096-3467.2024.1221

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 为了在捆绑推荐中解纠缠用户多样化意图以捕获丰富的节点信息，提出解纠缠感知双通道对比学习的捆绑推荐模型D2CBR。【方法】 局部多视图意图解纠缠模块将节点表示映射至潜在空间，获取解纠缠节点表示；全局超图统一学习模块整合多类型数据，捕捉高阶相关性；双通道协同学习模块运用对比学习实现两者的协同学习。【结果】 在公开数据集上，D2CBR模型展现出了显著的性能优势，相较于最先进的基线，平均性能提升了2.871%，最高提升可达6.425%。【局限】 超图运算，如关联矩阵，往往与图中节点数量相关，处理超大规模数据集时会导致较大的内存和计算开销，在计算资源有限的场景下应用可能受限。【结论】 通过图变分自编码器有效区分用户多样化意图，利用超图整合多类型数据，提升了推荐性能。所提模型在公开数据集上超越最先进的基线，证明其有效性和鲁棒性。

Select

融合课程知识图谱与图注意力网络的推荐模型研究^*

肖克江, 陈亮, 方铄, 庞世燕, 邱杰凡, 董亚宁, 杨文齐, 郭山锋

数据分析与知识发现. 2025, 9(12): 96-109. https://doi.org/10.11925/infotech.2096-3467.2024.1116

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 针对在线课程推荐存在数据稀疏、冷启动和特征利用不充分的问题，提出一种融合课程知识图谱与图注意力网络的推荐模型（CKGAT）。【方法】 CKGAT的学习者模块通过特征交叉层和全连接层分别提升学习者特征表示的记忆和泛化能力，课程模块基于图注意力网络挖掘课程实体间的高阶关联特征。对两个模块的输出向量进行点积计算后，得到推荐结果。【结果】 在基于MoocCubeX数据集的对比实验中，CKGAT在ACC、F1值和AUC三个指标上相较于最好的基线模型分别提升1.28%、1.62%和1.00%。【局限】 本文的课程知识图谱略显单薄，模型的计算复杂度可进一步优化。【结论】 本文提出的CKGAT取得了较好的推荐结果，有助于提升在线课程推荐效果。

Select

基于用户兴趣聚集性和层次性分布特征建模的序列推荐方法^*

马莹雪, 甘明鑫, 胡磊

数据分析与知识发现. 2025, 9(12): 110-126. https://doi.org/10.11925/infotech.2096-3467.2024.1235

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 为解决深度学习推荐方法无法对用户兴趣分布特征建模，不能充分刻画用户偏好的问题，提出一种基于用户兴趣聚集性和层次性分布特征建模的序列推荐方法。【方法】 利用注意力网络和LSTM从行为序列获取用户和项目的向量表示，学习用户兴趣分布的位置中心和边界半径，通过双半径刻画兴趣分布的层次性和聚集性；通过拟合候选项目特征与用户兴趣分布中心的距离和交互概率预测用户偏好；融合基于神经网络的行为预测和基于兴趣模型的偏好估计生成推荐。【结果】 在Amazon数据集上的实验结果表明，相比于表现最优的对比方法，本文方法在准确率、召回率、F值、覆盖率等评价指标上的性能更优，提升超过10个百分点。【局限】 未考虑除行为序列外的用户生成内容。【结论】 本文方法能准确刻画用户兴趣的分布特征，提高推荐准确度，优化推荐结果的综合质量。

Select

基于隐喻信息和指令调优的心理疾病检测^*

张冬瑜, 庄沐霖, 靳森源, 刘馨月

数据分析与知识发现. 2025, 9(12): 127-139. https://doi.org/10.11925/infotech.2096-3467.2024.0450

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 针对目前大量心理疾病检测研究未能充分考虑隐喻信息在疾病识别过程中的关键作用的问题，提出了一种基于隐喻信息和指令调优的心理疾病检测方法。【方法】 通过隐喻识别技术引入隐喻信息，分析隐喻的使用频率及隐喻中实体间的关联性。利用大语言模型捕捉症状和情绪信息，并整合这些特征构建指令集，对模型进行训练。【结果】 本文模型在Twitter-Depression和MVSA-Single数据集上的F1值分别为85.82%和75.47%，比基线模型高出2.01个百分点和1.49个百分点。【局限】 基于大语言模型提取的信息可能会受到模型幻觉的影响，导致准确性有所下降，需要更加准确的信息提取方法。【结论】 研究证实了隐喻信息在心理疾病检测中的重要性，为心理疾病检测模型提供了丰富的信息支持。

Select

融合关键信息粒度的多源异构时域卷积碳排放预测模型研究^*

李洪敏, 杨文豪, 马宏阳, 王建州

数据分析与知识发现. 2025, 9(12): 140-155. https://doi.org/10.11925/infotech.2096-3467.2024.1180

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 为应对城市碳排放信息的非完整性、特征的多元性以及排放规律的复杂性，全面刻画碳排放的复杂动态过程以提升预测精度。【方法】 提出一种融合关键信息粒度的多源异构时域卷积碳排放预测模型HOSVD-TCN。首先使用自动提取技术抓取原始粒度信息；其次运用自然语言处理社交媒体的实体文本，形成关键信息粒度的情感值；通过高阶奇异值分解和重构异质信息，生成高质量的张量表示，并将重构后的碳排放量作为预测模型的输入；最后使用时域卷积模型预测碳排放量。【结果】 实验结果表明，所提模型在三个城市的平均MAPE值仅为6.96%，预测性能优于其他主流的对比模型。【局限】 多模态数据处理的复杂度较高，预测效果受限于现有数据集的规模。【结论】 HOSVD-TCN模型充分结合了HOSVD的特征提取能力和TCN的时空捕捉能力，实现了对城市碳排放的准确预测，为城市规划和管理提供了有力的技术支持和科学依据。

Select

融合莱文斯坦距离算法的专利交易行为识别方法及实证研究

冉从敬, 丁群哲, 宋永辉, 王福新

数据分析与知识发现. 2025, 9(12): 156-166. https://doi.org/10.11925/infotech.2096-3467.2024.1171

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 针对专利转让数据中难以区分发生实质性专利交易的问题，提出一种系统性方法，通过融合多种莱文斯坦距离算法，准确识别发生实质性交易的专利行为，并探讨其技术特征差异。【方法】 针对不同专利转让场景，提出一套筛选流程。关键步骤是利用基于编辑距离算法的多种文本相似度方法，计算交易双方姓名和地址的相似度分值，并结合设定阈值剔除内部资源重新配置的非市场化交易记录。同时，通过实证研究验证方法准确性，利用统计分析比较发生实质性交易与未发生实质性交易行为的专利在技术指标上的差异。【结果】 本文方法准确率达81.27%，能够有效识别发生实质性交易的专利行为。发生实质性交易的专利在独立权利要求数量、同族专利数及被引次数等技术指标上显著高于未发生实质性交易的专利（p < 0.05）。【局限】 实验数据时间跨度有限，且文本相似度算法在复杂地址特征处理上的适应性需进一步优化。【结论】 本文为专利交易行为的精准识别提供了有效方法和思路，并为技术转移与专利市场化领域的研究提供了可靠数据支持。

Select

合作组织特征如何影响知识成果的新颖性和影响力：基于计算机科学领域的启示^*

李欣哲, 鲁晓

数据分析与知识发现. 2025, 9(12): 167-183. https://doi.org/10.11925/infotech.2096-3467.2024.0274

摘要 ( ) PDF全文 ( ) HTML

可视化

【目的】 本文分析科研合作组织特征对创新绩效的影响，解决创新绩效测度不够全面的问题，为科研管理和创新决策提供参考。【方法】 采用深度学习架构自然语言模型从论文标题和摘要中提取创新内涵特征，结合空间向量量化合作组织特征，利用计量模型开展实证分析。【结果】 合作网络开放性日益增长，跨界合作研究增多。知识成果的新颖性和影响力受合作成员知识背景相似性近似正“U”型影响，但拐点右移，且随成员所在机构邻近性的提高而降低。【局限】 样本局限于单学科，指标测度和影响因素选取存在不足，实证分析模型的选取受到一定限制。【结论】 团队成员知识背景相似性和所在机构邻近性较高的合作更有利于产出高影响力成果，而团队成员知识背景相似性和所在机构邻近性较低的合作更有利于产出高新颖性成果。推进科技创新既需要构建更开放的合作网络促进广泛交流，也需发挥相似背景团队的作用集中攻关，两种合作模式应协同发展。

选择文件类型/文献管理软件名称

选择包含的内容

2025年, 第9卷, 第12期　
刊出日期：2025-12-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2025年, 第9卷, 第12期 刊出日期：2025-12-25

2025年, 第9卷, 第12期　
刊出日期：2025-12-25