期刊首页 在线期刊 当期目录

2025年, 第9卷, 第6期 
刊出日期:2025-06-25
  

  • 全选
    |
    综述评介
  • 张博睿, 杨宁, 张鑫, 文奕
    数据分析与知识发现. 2025, 9(6): 1-20. https://doi.org/10.11925/infotech.2096-3467.2024.0549
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 总结国内外科学数据推荐的研究现状,为促进科学数据共享研究提供理论基础。【文献范围】 在CNKI、WOS、Google Scholar中使用“科学数据推荐”“科学数据集推荐”“Scientific data recommendation”“Scientific dataset recommendation”等关键词进行检索,并结合主题筛选和追溯法,筛选出71篇代表性文献。【方法】 基于文献调研与归纳总结方法,分别从推荐模型、结果评价、未来展望三方面对相关研究进行综述与评述。【结果】 科学数据推荐对于促进数据共享至关重要。已有研究可分为基于内容过滤、基于协同过滤、基于图模型和基于混合过滤的科学数据推荐。然而,现有研究缺乏对科学数据多源异构信息的综合利用,以及用户隐私保护的相关研究。此外,在可解释性研究和推荐结果的评测方面也存在不足。【局限】 由于科学数据类型存在多样性,并未将所有研究逐一列出。【结论】 融合多源异构信息的推荐、推荐可解释性、用户隐私保护以及推荐效果评测将是科学数据推荐领域的未来研究方向。

  • 研究论文
  • 宋梦鹏, 白海燕
    数据分析与知识发现. 2025, 9(6): 21-34. https://doi.org/10.11925/infotech.2096-3467.2024.0628
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 自动生成带参考文献的结构化综述,辅助科研用户快速了解某一领域科研知识。【方法】 选取NSTL平台7万篇论文,对摘要进行语步识别,构建语料库。通过大模型生成与人工修改构建3 000条综述数据,对GLM3-6B模型微调训练。通过将语料库转换成高维向量,利用索引存储向量,再向量检索实现LangChain外挂知识库。为弥补专有名词检索不佳的缺陷,混合BM25检索并重排序,提高检索精度。【结果】 通过微调训练模型和混合检索框架构建综述生成系统,BLEU和Rouge-L得分提高了109.64%和40.22%,人工评估真实性得分提高62.17%。【局限】 受计算资源限制,本地模型参数规模较小,生成能力有待提高。【结论】 利用检索增强生成技术发挥大模型的优势,不仅可以生成高质量的文献综述,也为生成内容提供循证溯源,辅助科研人员智能阅读。

  • 朱丹浩, 黄肖宇, 李堯霖, 王东波
    数据分析与知识发现. 2025, 9(6): 35-46. https://doi.org/10.11925/infotech.2096-3467.2024.0555
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于大语言模型技术进行法律文本的自动摘要,解决传统方法长文本处理能力弱、摘要逻辑性不强等问题。【方法】 提出一种基于大语言模型微调的法律文本自动摘要方法。首先,构建一套法律文本摘要指令数据集。其次,探索指令增强和结果增强两种数据增强方式。最后,对预训练模型进行领域化微调,并对结果进行多维度评价。【结果】 在CAIL2020司法摘要数据集上,本文方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别比最好的基准结果增长13.8、21.3和7.4个百分点。在人工评估和智能评估方面的结果也进一步证明了本文方法在各个维度的有效性。【局限】 在处理专业术语密集和逻辑结构复杂的法律文本时,生成的摘要在细节和法律条款的准确性上仍存在不足。【结论】 基于大语言模型微调可有效提升法律文本的摘要水平。

  • 余池, 陈亮, 许海云, 牟琳, 夏春姊, 贤信
    数据分析与知识发现. 2025, 9(6): 47-62. https://doi.org/10.11925/infotech.2096-3467.2024.0650
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在少标注样本的条件下对专利文本中的关键技术信息进行命名实体识别。【方法】 利用大语言模型具备丰富的通用知识和强大的语义理解能力的特点,提出一套利用提示模板从专利文本中识别命名实体的方法框架。【结果】 本文以硬盘驱动器磁头专利标注数据集TFH-2020为例展开实证分析,实验结果显示,在大语言模型的少样本学习能力下,命名实体的识别效果达到69%(F1值),当使用有监督微调方法时,其识别效果则下降至54%(F1值),这与大语言模型在通用文本上的命名实体识别表现正好相反。【局限】 所提方法虽然极大降低了数据标注成本,但和利用大量标注数据的当前最佳深度学习方法相比,在性能上还存在一定差距,同时提示模板的设计和优化方法、大批量指令集的快速生成技术等还有待进一步提升。【结论】 相比使用随机样本选择策略,使用相似度样本选择策略的大语言模型的命名实体识别效果从29%提升至69%(以F1值测度),这显示出样本选择策略在专利命名实体识别任务中对大语言模型的性能影响极大,提示模板处于该任务的核心地位,不仅决定着识别效果的优劣,也决定着优化方法的选择。

  • 钱玲飞, 马子宜, 董嘉嘉, 朱鹏宇, 高德荃
    数据分析与知识发现. 2025, 9(6): 63-72. https://doi.org/10.11925/infotech.2096-3467.2024.0610
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提升电力通信系统故障文本的关系抽取性能,针对领域特点,提出一种考虑本体信息的多层次图卷积文档级关系抽取模型。【方法】 首先,使用字级别嵌入对故障文本进行编码;其次,构造句级别和实体级文档图,通过卷积聚合实体级、句子级与文档级的语义信息;最后,根据本体概念模型设计“本体-本体”边构造方法,加入“预测实体对是否符合本体约束”的辅助任务,提升模型性能。【结果】 在自建的电力通信网故障文本数据集上进行消融实验和对比实验。实验结果表明:所提模型表现最优,F1、Ign_F1、Accuracy值分别达到97.22%、95.17%、97.97%。【局限】 需进一步验证模型的泛化能力。【结论】 所提模型适用于电力通信网故障知识图谱的关系抽取任务,较现有模型具有更好的抽取效果。

  • 马月坤, 张佳欣
    数据分析与知识发现. 2025, 9(6): 73-87. https://doi.org/10.11925/infotech.2096-3467.2024.0636
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为充分挖掘隐喻中隐含的语义信息,并准确捕捉隐喻与字面意义间的语义差异,提升隐喻识别效果,提出一种基于语义图表征和对比学习的隐喻识别方法。【方法】 首先,利用图卷积神经网络(GCN)提取与依存词对相关的上下文语义信息,实现上下文语义图表征。其次,构建基于隐喻认知的语义网络,采用GraphSage和元路径技术,学习网络中潜在的概念语义关联,实现隐喻认知语义网络的图表征。最后,通过双向交叉注意力机制和多视图融合模块融合不同方面的特征,并采用监督对比学习从样本相似性和域的不一致性两个角度捕捉隐喻与字面意义之间的相似性和差异性,提高分类器对隐喻的判别性能。【结果】 在标记级任务中,MOH-X和TroFi数据集上的F1值较次优模型分别提升了0.6和1.9个百分点。在关系级任务中,MOH-X、TSV、TroFi数据集上的F1值较次优模型分别提升了0.6、1.0、2.7个百分点,达到了目前最优水平。【局限】 在生成隐喻认知语义网络的过程中,会受到词语歧义的影响。【结论】 所提方法能够有效捕捉与隐喻相关的潜在语义特征,并且充分建模隐喻与字面意义之间的语义差异。

  • 张顺香, 文华, 张基旭, 丁远远, 段玉俊
    数据分析与知识发现. 2025, 9(6): 88-98. https://doi.org/10.11925/infotech.2096-3467.2024.0655
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对当前抑郁程度情感分析模型未能充分考虑到患者极端化表达的问题,提出一种面向极端化表达的抑郁程度情感分析模型CWFD-A。【方法】 结合Jieba和RoBERTa提取文本的字符级和词语级特征,将不同粒度的特征融合,输入BiLSTM得到文本不同位置的情感信息;然后使用多头注意力为文本各部分分配权重,使模型更准确地捕捉与抑郁情感相关的信息;最后通过全连接层并使用Softmax函数进行归一化,输出预测结果。【结果】 在中文抑郁文本句子语料库上的准确率、召回率、F1分数和精确率为84.14%、61.09%、62.90%和64.81%,在数据集ZFCD上的准确率、召回率、F1分数和精确率为93.59%、82.55%、85.37%和88.38%。【局限】 在进行抑郁程度情感分析时只结合了文本信息,没有涉及图片、音频、视频等其他模态信息。【结论】 CWFD-A模型能够准确识别抑郁症领域词语、程度副词等,结合多粒度特征信息,有效捕捉文本深层语义,提高了抑郁程度情感分析的准确率。

  • 任明仑, 龚宁然
    数据分析与知识发现. 2025, 9(6): 99-110. https://doi.org/10.11925/infotech.2096-3467.2024.0612
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决知识图谱中由于关系稀疏性和隐藏关系难以利用而导致的认知局限问题。【方法】 提出一种基于图注意力网络的全局邻域感知知识图谱推理模型(GAGAT),通过引入介数中心性作为隐式结构信息,结合关系语义信息,构建层次注意力机制,增强链路预测的准确率和可解释性。【结果】 在FB15K-237、WN18RR数据集上,GAGAT在Hits@3指标上较ComplEx分别高出26.5个百分点和5个百分点,较CompGCN分别高出15个百分点和1.6个百分点,较SD-GAT均高出1个百分点,证明了其在捕获隐式关系和复杂语义上的优势。【局限】 仅以介数中心性作为隐式结构信息和关系语义信息进行融合推理,未探讨其他隐式结构特征在推理中的作用。【结论】 GAGAT模型通过融合隐式结构信息和关系语义信息,进一步挖掘知识图谱中的隐藏关系,有效提升知识图谱链路预测的准确性和可解释性,为提升智能系统的认知决策能力提供了坚实的支撑。

  • 路稳, 吴贞东, 彭莉兰, 陈祥瑞, 马欢
    数据分析与知识发现. 2025, 9(6): 111-122. https://doi.org/10.11925/infotech.2096-3467.2024.0637
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对知识图谱嵌入模型学习过程中,由于数据规模增长带来的实体采样质量不高、正负样本分布欠均衡等问题,提出一种融合子采样与负采样的自适应知识图谱嵌入模型(SSF)。【方法】 首先,引入K均值聚类算法,基于实体感知负采样策略,选取与正样本高度相关的负样本,缓解样本稀疏性和采样质量问题;其次,采用多维子采样策略,通过动态调整正负样本比例,优化样本数据集结构,确保样本类别分布均衡;最后,搭建门控网络,通过计算数据集词频,模型能够自适应选择Freq和Uniq采样函数,提升输出实体与关系嵌入的准确性。【结果】 在FB15K-237和WNRR18数据集上进行对比实验,SSF模型在MRR指标上相较于基线模型最高提升了10.7个百分点。【局限】 由于负采样策略的计算复杂度较高,未能全面分析SSF模型的复杂度和效率。【结论】 SSF模型充分融合了子采样与负采样策略的优点,在MR、MRR、Hit@N三个指标上均优于基线模型,能够提升知识图谱嵌入质量和模型泛化能力。

  • 江钰哲, 成全
    数据分析与知识发现. 2025, 9(6): 123-135. https://doi.org/10.11925/infotech.2096-3467.2024.0600
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对患者的时序数据和体征数据进行挖掘分析,为患者提供准确安全的用药方案参考,为医生提供有效的用药决策支持。【方法】 提出一个融合时序与体征数据的药物组合推荐模型。首先,利用Transformer模型、卷积神经网络和时间感知方法分别挖掘患者的时序数据;其次,利用知识图谱和图卷积神经网络技术挖掘患者的体征数据;最后,将不良药物的相互作用信息融入推荐过程中,为患者推荐安全有效的用药方案。【结果】 以MIMIC-III数据集中的多次入院患者作为对象开展实证研究。较GRAM、G-BERT、TAHDNet等模型,本文模型在Jaccard系数上分别提升了14.0%、6.6%、3.7%,F1值分别提升了9.3%、4.4%、1.2%,DDI率指标达到最低。【局限】 虽然考虑了患者的异常体征,但并未考虑患者异常体征的具体数值。【结论】 通过融合分析患者时序数据和体征数据,有利于药物推荐模型更加准确地学习患者病情特征,有助于为患者推荐更加准确的用药方案。在推荐中考虑不良药物相互作用信息有助于为患者推荐更加安全的用药方案。

  • 温彦, 孙会政, 卞玮, 闫铭海
    数据分析与知识发现. 2025, 9(6): 136-148. https://doi.org/10.11925/infotech.2096-3467.2024.0370
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对会话推荐系统中的用户兴趣焦点精确捕获和噪音消除问题,提出一种基于面向重复性构建超图和面向共现性重构排名的会话推荐方法。【方法】 通过数据分析发现重复项目隐含更高的会话内聚性,提出会话内基于重复项目的动态超边构造方法。在位置信息的基础上融合全局共现信息,进行位置信息排名重构。最后,为缓解数据稀疏问题,引入全局范围内的会话间协同信息注入模块。【结果】 为验证本文模型的有效性,在三个基准数据集上进行实验。相较于次优模型,在Diginetica数据集上,P@20提升1.09%,MRR@20提升0.63%;在Tmall数据集上,P@20提升8.41%,MRR@20提升6.29%;在RetailRocket数据集上,P@20提升2.91%,MRR@20提升1%。【局限】 模型性能仍然受数据稀疏的影响。【结论】 本文方法优于基准模型,具备良好的推荐效果。

  • 张治鹏, 张李义
    数据分析与知识发现. 2025, 9(6): 149-160. https://doi.org/10.11925/infotech.2096-3467.2024.0591
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 以短视频广告的观众属性为视角,提取观众的心理属性和人口统计属性变量,探索其对观众参与的影响。【方法】 以自我效能理论为基础,利用数据挖掘和深度学习方法构造观众心理属性和人口统计属性变量,通过回归模型分析这些变量对观众参与的影响以及产品类型的调节作用。【结果】 观众对广告披露感知、消极热评占比、女性占比以及Z世代、中间年龄层和中老年观众占比对观众参与均有不同程度的影响;产品类型对主效应均有调节作用。【局限】 观众参与指标比较单一,可以通过获取观众的观看和购买数据进一步扩充。【结论】 观众的心理属性和人口统计属性变量均显著影响观众参与,并且受产品类型的调节。

  • 曾闻, 王曰芬
    数据分析与知识发现. 2025, 9(6): 161-171. https://doi.org/10.11925/infotech.2096-3467.2024.0660
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过研究专利技术转移类型分布特点与演化规律,为科技创新活动提供决策参考。【方法】 根据专利转让的输入与输出构建专利技术转移信息数据库,划分时间阶段并构建网络,选取专利特征值构建转移范围和转移深度指标并基于战略坐标图界定技术转移类型,结合Markov链方法分析不同时段的类型分布与演化趋向。【结果】 我国AI专利技术转移类型中Ⅲ型最为普遍,Ⅰ型高度聚集于长、珠三角地区,多数省市遵循由Ⅲ型到Ⅱ型到Ⅰ型的发展规律,技术转移类型随时间推移维持概率高,尤其Ⅰ型维持概率达100%,类型间跨级跃迁减少。【局限】 仅选取两个维度指标研究技术转移类型,未来可采用多维度指标进行分析。【结论】 研究得出的技术转移特征及类型演化规律可为政府与企业制定有针对性的专利转移转化政策与策略提供参考。