期刊首页 在线期刊 当期目录

2025年, 第9卷, 第1期 
刊出日期:2025-01-25
  

  • 全选
    |
    综述评介
  • 孙文举, 李清勇, 张靖, 王丹羽, 王雯, 耿阳李敖
    数据分析与知识发现. 2025, 9(1): 1-30. https://doi.org/10.11925/infotech.2096-3467.2024.0508
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 追踪深度神经网络模型在增量学习领域的研究进展,以解决灾难性遗忘问题为切入角度对相关方法进行归纳和整理,为未来的研究提供参考。【文献范围】 以“增量学习”“持续学习”和“灾难性遗忘”作为关键词,在Web of Science、谷歌学术、DBLP和CNKI等数据库中进行文献检索,共筛选出105篇代表性文献。【方法】 首先详细介绍增量学习的定义、核心问题及其面临的挑战,再将现有增量学习方法分为基于正则约束、基于信息存储和基于动态网络三类,总结各类别的原理、优势及代表性方法。【结果】 在统一的实验设置下,对主流增量学习方法进行评测,并开源代码。实验发现,基于正则约束的方法虽高效但难以完全解决遗忘问题;基于信息存储的方法性能受保留范例数量影响较大;基于动态网络的方法虽能有效避免遗忘,但增加了计算开销。【局限】 主要针对深度神经网络的增量学习进行综述,未涉及非深度学习领域的增量学习技术。【结论】 在理想条件下,基于信息存储和基于动态网络的方法相较基于正则约束的方法表现出更优越的性能,这两类方法的技术复杂性可能会限制其推广应用。现有增量学习方法与联合训练相比仍有不足,需在未来的研究中予以解决。

  • 研究论文
  • 慕鑫, 韩晓旭, 朱飞达
    数据分析与知识发现. 2025, 9(1): 31-40. https://doi.org/10.11925/infotech.2096-3467.2024.0512
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对现有方法依赖启发式随机生成数据或随机扰动数据导致结果不稳定的问题,提出一种基于深度网络扰动的端到端自监督数据审计框架。【方法】 本文框架将传统的随机扰动数据方式转变为基于深度网络的扰动。通过优化审计数据在输出空间中的距离关系,并经过多轮迭代,实现对审计数据的分类。【结果】 在视觉和自然语言处理任务上进行多组实验,结果显示,本文方法在F1值和AUC指标上较之前的最优方法分别平均提升5.22和6.29个百分点。【局限】 未能对算法的理论基础展开讨论,同时未细化模型在不同类型数据上的扩展性。【结论】 基于深度网络扰动的自监督数据审计框架避免了随机方法带来的不确定性,其数据审计性能优于现有方法。

  • 付芸, 刘细文
    数据分析与知识发现. 2025, 9(1): 41-54. https://doi.org/10.11925/infotech.2096-3467.2024.0692
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 突破传统依赖专家经验的方式,采用数据与知识协同驱动的方法,构建合成实验操作单元统一表示语言(Unified Language of Experiment Operation Units,ULEU)。【方法】 基于大语言模型GPT-4,构建合成实验操作单元识别模型NL2ULEU。对100条合成方案进行测试,模型识别合成操作单元组成元素(合成操作和操作参数)的准确度超过91%。选取47个常用合成操作,结合模型识别结果、专家反馈的错误信息以及合成操作与操作参数的共现强度,对每个合成操作及其关联操作参数进行标准化处理,从而构建统一表示语言。【结果】 使用NL2ULEU处理了811条合成方案,对47个合成操作及其关联操作参数进行标准化处理,最终构建了一套包含30个合成操作单元的合成实验操作单元统一表示语言。每个合成实验操作单元均由一个合成操作及若干操作参数组成。【局限】 本研究仅选取常用合成操作,未来可以基于本文方法进一步标准化其他合成操作,逐步丰富和完善合成实验操作单元集。【结论】 与常用的合成实验操作单元表示框架χDL相比,ULEU在内容和格式上能够更加精准地揭示合成实验方案的内容。

  • 王筱纶, 姚倩, 林佳慧, 赵宇翔, 孙志豪, 林欣澜
    数据分析与知识发现. 2025, 9(1): 55-64. https://doi.org/10.11925/infotech.2096-3467.2024.0098
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于自我决定理论,通过挖掘平台数据探究技能众包平台中服务商参与任务动机。【方法】 从一品威客网采集15 641条标书及2 385位服务商数据,针对文本特征选取TF-IDF模型和BERT机器学习算法计算动机变量,并考虑因变量为计数变量,构建负二项回归模型。【结果】 服务商参与技能众包动机与行为在1%的水平上显著相关(R2=23.1%),任务难度能提升模型解释能力,负向调节胜任能力和声望信誉(p<0.05),正向调节社交认可(p<0.01)。【局限】 一家平台的代表性有限,未来可采集多家平台数据进行对比验证;平台数据可能存在外生变量(如平台博弈、政策环境)的干扰,未来可考虑上述因素,深化研究结论。【结论】 本研究能够拓宽服务商参与众包任务的理论基础,对于服务商、买方和平台均具有实践启示。

  • 张岚泽, 顾益军, 彭竞杰
    数据分析与知识发现. 2025, 9(1): 65-78. https://doi.org/10.11925/infotech.2096-3467.2023.1009
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为提高图神经网络在信贷欺诈检测中的准确性,引入拓扑结构分析,提出融合先验结构信息的图深度欺诈检测模型PSI-GNN。【方法】 通过结构信息编码将表征中心节点拓扑结构的属性信息嵌入特征向量;将消息传递分为近端与远端两个方面,基于浅层图神经网络模型聚合近端节点信息,以随机游走结构相似性为导向聚合远端同构性信息;最后,将上述消息传递结果融合得到节点嵌入表示。【结果】 在包含欺诈行为的信贷或交易网络DGraph-Fin和TFinance数据集上,与9个相关领域的图神经网络模型相比,PSI-GNN模型的Macro-F1和AUC分别具有2.62、4.55和4.67、2.33个百分点的提升。【局限】 处理节点结构信息的过程时间开销较大。【结论】 通过对信贷网络结构属性和同构信息建模,实现对信贷欺诈者的检测。

  • 谢珺, 杨海洋, 续欣莹, 程兰, 张亚睿, 吕佳琪
    数据分析与知识发现. 2025, 9(1): 79-89. https://doi.org/10.11925/infotech.2096-3467.2023.1072
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对现有知识图谱补全模型知识表示质量低、模型性能差等问题,提出一种基于多视图融合与多特征提取的知识图谱补全方法。【方法】 通过视图编码器生成多个单视图网络,利用注意力机制融合不同视图信息作为实体的最终知识表示;通过不同的特征提取器分别提取头实体与关系的语义和交互特征,利用交叉注意力模块融合语义和交互特征并与尾实体进行匹配。【结果】 在链接预测任务中的实验结果表明,与基线模型相比,本文模型在通用数据集FB15K-237和WN18RR上的Hits@10指标分别提升0.4和0.7个百分点,在领域数据集Kinship和UMLS上的Hits@10指标分别达到99.0%和99.9%。【局限】 在视图更新时未更新关系,关系知识表示向量质量一般。【结论】 多视图融合模型能够有效提升知识图谱表示质量,多特征提取框架能够有效提升链接预测精度。

  • 王震宇, 朱学芳, 杨睿
    数据分析与知识发现. 2025, 9(1): 90-99. https://doi.org/10.11925/infotech.2096-3467.2023.1273
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用大语言模型生成高质量辅助知识,以提升多模态关系抽取的性能。【方法】 通过引入多模态相似度检测模块构建多模态提示模板,提示大语言模型将视觉信息和先验知识融入生成的高质量辅助知识中。将获得的辅助知识与原始文本输入下游文本模型,实现对实体关系的准确预测。【结果】 实验表明,相较于最优基线模型,所提模型在多模态关系抽取数据集MNRE上的准确率和F1值分别提高了4.09和7.84个百分点。【局限】 实验仅基于英文数据集,未考虑其他语言数据集。【结论】 通过对比实验和案例分析,验证了所提模型在多模态关系抽取任务中的有效性,为未来在多模态信息抽取任务中应用大语言模型提供了方向。

  • 穰雨辰, 马静
    数据分析与知识发现. 2025, 9(1): 100-109. https://doi.org/10.11925/infotech.2096-3467.2023.1130
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为减小模态间差异,加强模态间的关联性,提出多模态对齐情感分析模型,精准把握多模态数据中蕴藏的情感倾向。【方法】 针对文本模态,原始文本数据在补充图像字幕后使用RoBERTa预训练模型进行文本特征提取;针对图像模态,使用Clip Vision Model提取图像特征。将分别提取出的文本、图像特征通过以多模态Transformer为主的多模态对齐层,得到增强的融合特征,最后将多模态融合特征输入多层感知机进行情感识别分类。【结果】 本文模型在MVSA-Multiple数据集上的准确率和F1值达到71.78%和68.97%,较基线模型中的最优表现,分别提高1.78和0.07个百分点。【局限】 未使用更多的数据集检验模型表现。【结论】 本文模型能有效促进模态间的融合,获得了更好的融合表征,提升了情感分析效果。

  • 庞庆华, 徐珣, 张丽娜
    数据分析与知识发现. 2025, 9(1): 110-120. https://doi.org/10.11925/infotech.2096-3467.2023.1076
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决微博主题推荐中存在的单一性和缺乏新颖性的问题,提出一种更加全面的主题推荐模型,以满足用户个性化需求。【方法】 首先利用LDA模型挖掘用户历史微博主题,构建微博-主题矩阵和用户-主题矩阵;其次从微博的互动、属性和频次维度综合衡量,形成用户对微博主题的多维度评价,同时模拟用户兴趣的遗忘和衰减过程,构建用户动态兴趣模型,并得到用户的邻居集;最后通过混合推荐,形成用户对主题的最终评价,为用户进行主题推荐。【结果】 通过真实数据集进行消融实验,本文提出的主题推荐模型在F1值、覆盖率、新颖度方面的综合评价均高于单一模型。【局限】 仅从微博文本内容进行主题挖掘,未结合用户评论等信息。【结论】 本文模型在保证准确率的同时,可以为用户提供更多样、新颖的微博推荐内容。

  • 李林霞, 陈波, 周毛克, 赵小兵
    数据分析与知识发现. 2025, 9(1): 121-132. https://doi.org/10.11925/infotech.2096-3467.2024.0065
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。【方法】 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法NeuroAlign。将平行句对嵌入同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。【结果】 与基线系统相比,本文方法在BUCC2018平行文本挖掘任务中F1值可提升0.5~0.8个百分点;在CCMT2021低资源语言神经机器翻译中BLEU值可提升0.1~10.9;句对齐评分可接近人工评分。【局限】 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索。【结论】 本文提出的句对齐评分方法可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。

  • 董文佳, 孙坦, 赵瑞雪, 马玮璐, 熊赫, 鲜国建
    数据分析与知识发现. 2025, 9(1): 133-144. https://doi.org/10.11925/infotech.2096-3467.2024.0302
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 深入挖掘文献特征间的深层次关联关系,提升学术文献作者姓名消歧的效果。【方法】 结合机构名称规范库、学科分类体系、主题词表等规范知识库的先验知识,设计一种基于知识增强的特征提取框架,在规范数据的基础上,通过异质信息网络嵌入融合文献特征的语义信息和关系信息,生成高质量的文献向量表示,使用层次凝聚算法进行聚类。【结果】 在本文构建的测试集中,模型F1值达到89.07%。【局限】 知识库的质量和规模限制了模型在新兴及细分领域的准确性和泛化能力。【结论】 本文方法结合专家先验知识和深度学习的强大学习能力,为学术文献中的姓名消歧任务提供了有效路径。

  • 沈阳泰, 齐江蕾, 丁浩
    数据分析与知识发现. 2025, 9(1): 145-153. https://doi.org/10.11925/infotech.2096-3467.2023.0808
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对出版物推荐领域可能存在的数据稀疏性问题,提出一种基于LDA与迁移学习的潜在非负因子分解主题推荐模型,提高在数据稀疏场景中推荐的准确率。【方法】 使用非负矩阵分解填充非负数据的高维稀疏矩阵,基于LDA与非负矩阵分解构建隐含主题模型,充分考虑用户评论信息的主题分布特征,进一步将用户不同维度的信息应用到评分预测中,缓解数据的稀疏性。同时引入迁移学习机制,从相关的其他类别出版物预训练模型中提取和迁移模型参数,协助完成目标模型特征学习任务,提高对冷门出版物推荐的有效性。【结果】 在三个出版物数据集中与三种基线方法进行对比实验,本文模型的精确率、F1值和NDCG平均为0.773 2、0.708 5和0.746 8,各指标结果总体优于其他基线模型。【局限】 当系统中用户数量过少时,需通过其他方法进行冷启动。【结论】 本文所提方法对用户兴趣特征泛化能力强,能进一步缓解模型中的流行度偏置以及数据稀疏性问题,有效提高出版物推荐的准确率。