期刊首页 在线期刊 推荐文章

推荐文章

Please wait a minute...
  • 全选
    |
  • 研究论文
    李莹, 李明
    数据分析与知识发现. 2024, 8(10): 89-99. https://doi.org/10.11925/infotech.2096-3467.2023.0683
    摘要 (106) PDF全文 (16) HTML (28)   可视化   收藏

    【目的】 针对在线问答社区的问答文档识别和推荐补充性问答,提出一种基于迁移学习增强的多标签多文档分类模型的补充性问答推荐方法。【方法】 提出新的特征与已有特征一起用于问答补充关系分类,建立迁移学习增强的多标签多文档分类模型,用于识别和推荐补充性问答。【结果】 在知乎社区真实数据集上三个元任务的结果表明,本文所提推荐方法的精确度、召回率和F1值平均提升48.29%、15.75%和32.53%。【局限】 仅将方法应用在知乎的健康问答主题上,未验证在不同平台与不同主题问答中的效果。【结论】 本文所提推荐方法能够有效推荐补充性问答,帮助问答社区用户更加全面地获取问答,促进社区中知识的利用。

  • 研究论文
    何峻, 于建军, 荣晓慧
    数据分析与知识发现. 2024, 8(10): 136-145. https://doi.org/10.11925/infotech.2096-3467.2023.0645
    摘要 (107) PDF全文 (175) HTML (31)   可视化   收藏

    【目的】 保证科研机构整体预算绩效评价的客观性、及时性和准确性,提升绩效评价工作效率。【方法】 提出一种基于LightGBM的科研机构整体预算绩效评价预测方法,融合科研管理信息化系统多元数据,依据科研投入和成果产出数据与科研绩效间的相关性,利用机器学习算法分析和预测科研机构整体预算绩效评价结果。【结果】 在科研机构整体预算绩效评价应用中,本文提出的绩效评价预测方法准确率为94.12%,预算绩效评价过程所需的人力资源由原来的10人减少至5人,时间成本由原来的38天左右降低至10天左右。【局限】 部分绩效评价指标为主观指标,难以通过科研管理信息化系统中的业务数据进行量化。【结论】 本文方法在整体预算绩效评价结果预测中表现优异,能够减少主观评价带来的公允性问题,同时还能节省预算绩效评价工作的人力资源和时间成本,提高绩效评价效率。

  • 研究论文
    石斌, 王昊, 刘懋霖, 邓三鸿
    数据分析与知识发现. 2024, 8(10): 146-158. https://doi.org/10.11925/infotech.2096-3467.2023.0688
    摘要 (96) PDF全文 (26) HTML (37)   可视化   收藏

    【目的】 构建中国陶瓷图像描述模型CCI-ClipCap,为陶瓷文化研究和数字化保护提供技术支撑。【方法】 在ClipCap的基础上,引入Prompt范式改善模型对跨模态数据的理解,实现对陶瓷图像的自动描述,提出一种针对具有一定表述结构的文本相似度评估方法。【结果】 CCI-ClipCap模型利用Prompt范式改进了多模态融合过程,能够很好地提取陶瓷图像的信息,并生成与实际相符的描述文本,Bleu、Rouge值等相较于基线模型分别提升了约0.04、0.14。【局限】 所使用的数据来源于大英博物馆的馆藏数据,而非中文原生数据集,数据来源较为单一。【结论】 CCI-ClipCap模型生成的文本表达层次丰富,能够理解陶瓷领域知识,具有较强的专业性。

  • 研究论文
    胡威, 李姝影, 张鑫, 杨宁
    数据分析与知识发现. 2024, 8(10): 28-43. https://doi.org/10.11925/infotech.2096-3467.2024.0737
    摘要 (47) PDF全文 (30) HTML (39)   可视化   收藏

    【目的】 研究优化专利引文网络链路预测模型,以提升技术演化分析和预测效果,进一步完善技术扩散理论与方法。【方法】 针对专利文献的特点,构建一种新的链路预测模型框架Graph-PatentBERT-RF。首先,利用GraphSAGE模型获得训练集专利引文网络的向量化表示,利用PatentBERT模型得到4个主题维度的专利技术文本的语义表示向量。其次,融合两部分向量结果以及其他特征,进行随机森林模型训练,最终得到优化后的专利引文网络的链路预测概率值。【结果】 在量子传感领域进行实证研究,Graph-PatentBERT-RF模型的综合预测性能效果最优,F1-score指标高于基线模型2.2%以上,并阐释了引用关系与多维度技术文本、时滞等特征之间的非线性关系以及特征之间4层以上的复杂交互作用。【局限】 数据预处理步骤有待优化,有望进一步提升模型性能。【结论】 本文模型提升了专利引文网络的综合预测性能,为当前引文数据不完整的问题给出了优化解决办法,有助于多种基于引文网络的技术演化分析等应用研究的发展。

  • 研究论文
    胡天翼, 刘建华, 鄂海红, 丁峻鹏, 乔晓东
    数据分析与知识发现. 2024, 8(10): 125-135. https://doi.org/10.11925/infotech.2096-3467.2023.0937
    摘要 (43) PDF全文 (27) HTML (34)   可视化   收藏

    【目的】 探索“论文工厂”论文自动检测的特征模型,构建从多个维度自动化甄别“论文工厂”论文的工具,为我国科研诚信治理和学术出版质量控制提供重要支持。【方法】 从撤稿观察等网站搜集“论文工厂”论文的撤稿记录及关联数据资源,构建用于训练及评价“论文工厂”自动化检测模型的首个公开数据集,构建文本随机游走策略与文本注意力机制的“论文工厂”论文分类模型(RWTA-Model),建模33种“论文工厂”文法特征,并使用SHAP方法自动挖掘显著特征。【结果】 基于标题结构特征、基于摘要结构特征、基于正文结构特征F1值分别达到0.766 9、0.842 3、0.848 0。对于三种文章结构数据,所提方法与多种基线方法对比均取得了最好的结果,并挖掘了12种显著的文法特征。【局限】 支撑特征构建的数据集集中于生物医学领域,存在领域偏见的潜在风险。【结论】 构建的“论文工厂”标题、摘要和正文结构三个维度的分类模型与33种维度的自动检测特征模型,可以有效甄别出“论文工厂”论文并挖掘多维度特征,支撑“论文工厂”论文的自动化检测。

  • 专题
    贺国秀, 任佳渝, 李宗耀, 林晨曦, 蔚海燕
    数据分析与知识发现. 2024, 8(4): 1-13. https://doi.org/10.11925/infotech.2096-3467.2023.0684
    摘要 (379) PDF全文 (219) HTML (149)   可视化   收藏

    【目的】 探究基于内容的深度谣言检测模型能否真正识别谣言的关键语义。【方法】 基于谣言检测任务的中英文基准数据集,本文分别利用基于局部代理模型的可解释工具LIME和基于合作博弈论的可解释工具SHAP,分析BERT模型所识别出的关键特征,并判断其是否能反映谣言特性。【结果】 可解释工具在不同模型与数据集上计算得出的关键特征差异性较大,无法辨别模型识别的重要特征和谣言之间的语义关系。【局限】 本文验证的数据集和模型数量都十分有限。【结论】 基于深度学习的谣言检测模型仅拟合了训练集的特征,面向多样的真实场景缺少足够的泛化性和可解释性。

  • 研究论文
    齐小英, 李晗语, 杨海平
    数据分析与知识发现. 2024, 8(4): 76-87. https://doi.org/10.11925/infotech.2096-3467.2023.0081
    摘要 (224) PDF全文 (272) HTML (90)   可视化   收藏

    【目的】 实现地图的多重语义分类,满足地图精准检索与情报分析的需求。【方法】 设计地图类目体系,提出地图多标签分类策略,基于AlexNet卷积神经网络分类模型实现南海地图多标签自动分类。【结果】 南海地图多标签自动分类模型的F1值为0.979,模型能够有效实现南海地图的多标签自动分类。【局限】 多标签标注数据集的深层次类目有待补充。【结论】 研究内容为基于语义的地图科学分类、精准检索与跨类关联提供了参考。

  • 研究论文
    朱宇婧, 陈芳, 王学昭
    数据分析与知识发现. 2024, 8(10): 1-13. https://doi.org/10.11925/infotech.2096-3467.2023.0699
    摘要 (155) PDF全文 (44) HTML (118)   可视化   收藏

    【目的】 针对西方国家对华技术出口管制场景,提出一种在商业管制清单-专利双层网络中映射的关键核心技术识别方法,为遴选和布局技术攻关方向提供参考。【方法】 融合美国商业管制清单(CCL)和专利数据,构建管制清单关联网与加权专利引用网的双层网络,在双层网络中分别采用社区发现算法识别技术集群,计算层间集群的语义相似度实现自动映射,并结合Word2Vec与n-gram方法提取集群关键词用于表征技术主题,与CCL集群相似度最大的专利集群所表征的技术即为关键核心技术。【结果】 在工业软件领域进行实证的结果表明,所提方法识别出与CCL集群相似度最大的12个不同专利集群,其相似度均在0.85以上,涉及集成电路IP核、精密测量、过程控制、运动控制和涡轮检测等主题,经文献调研验证为工业软件领域的关键核心技术。【局限】 仅选取工业软件进行实证研究;技术路线还有待改进;识别结果有待进一步解读分析。【结论】 所提方法不仅能够在微观层次高效、准确地识别出关键核心技术,并且自动化程度高、结果易读性强,具有较高的实际应用价值。

  • 研究论文
    张金柱, 孙雯雯, 仇蒙蒙
    数据分析与知识发现. 2024, 8(10): 14-27. https://doi.org/10.11925/infotech.2096-3467.2023.0724
    摘要 (137) PDF全文 (33) HTML (48)   可视化   收藏

    【目的】 扩展涉及引文推荐的异构网络涵盖的节点及其关系,对其进行深层次语义表示,揭示不同关系对引文推荐的影响和差异,提高引文推荐效果。【方法】 在引入语义链接构建异构网络的基础上,构建融合注意力机制的异构网络表示学习模型,生成深层次的语义和结构表示,引入相似度指标实现引文推荐,并通过消融实验探索不同因素对引文推荐的影响程度。【结果】 引入语义链接前后引文推荐模型AUC相对提升0.012;引入双层注意力机制前后AUC相对提升0.079;对比基线模型CR-HBNE,其AUCAP分别提升0.185和0.204。【局限】 手动选取关联路径不够高效,仅根据两项指标对推荐结果进行评价。【结论】 本文方法充分利用引文间的复杂关联和深层语义信息,有效提升引文推荐效果。

  • 研究论文
    徐豪帅, 洪亮, 侯雯君
    数据分析与知识发现. 2024, 8(10): 66-76. https://doi.org/10.11925/infotech.2096-3467.2023.0973
    摘要 (121) PDF全文 (42) HTML (37)   可视化   收藏

    【目的】 解决标注数据稀缺时基于提示学习关系抽取方法标签映射难以构建的问题。【方法】 在提示模板中注入关系语义增强提示效果,利用提示集成对输入进行数据增强,通过实例级注意力机制在原型构建过程中提取重要特征。【结果】 在公开数据集FewRel上,本文方法的准确率在4种少样本测试场景下分别超越了基线模型2.13个百分点、0.55个百分点、1.40个百分点和2.91个百分点。【局限】 在提示模板构造上没有使用可学习的虚拟提示模板,在回答词表示上仍有优化空间。【结论】 本文方法有效缓解了少样本场景下原型构建信息有限、准确性不足的问题,提升了模型在少样本关系抽取任务上的准确性。

  • 研究论文
    段宇锋, 张美聪, 刘宴佐, 贺国秀
    数据分析与知识发现. 2024, 8(10): 100-111. https://doi.org/10.11925/infotech.2096-3467.2023.0665
    摘要 (83) PDF全文 (12) HTML (14)   可视化   收藏

    【目的】 验证汉字的字音和字形对增强汉字表示的有效性。【方法】 基于命名实体识别任务,分别以通用嵌入模块、双向LSTM模块、Softmax激活的全连接网络模块作为模型的基准字嵌入层、上下文编码层、解码层,在MSRA、PeopleDaily、CCKS2017、Resume、E-Commerce等数据集上,比较以汉字拼音、汉字图像、五笔字型码、四角码、仓颉码、偏旁部首增强字嵌入后Micro-F1值和各实体F1值的变化。【结果】 使用字音、字形增强字嵌入,模型在MSRA、PeopleDaily数据集上的性能下降近0.010,在CCKS2017、Resume、E-Commerce数据集上的性能变化无统计学意义。【局限】 仅使用32×32像素的简体字图像,可能影响字形特征的提取。【结论】 字音、字形特征在增强字的表示的同时也引入了噪音,在不同语料和实体上表现出差异化的效果。

  • 研究论文
    吴树芳, 王宏彬, 朱杰, 陈婷
    数据分析与知识发现. 2024, 8(10): 77-88. https://doi.org/10.11925/infotech.2096-3467.2023.0703
    摘要 (70) PDF全文 (19) HTML (15)   可视化   收藏

    【目的】 为了解决社交短文本碎片化、网络用语化的问题,利用社交网络中的异质关系实现对社交短文本的扩展。【方法】 基于离散度度量社交信息中热点词的不均匀度,以此改进TF-IDF方法,获取初始特征;依据社交网络中的异质关系,构建包括三个子网络的两层异质社交网络,量化网络中用户的重要程度、文本相似度以及用户对社交文本的认可度,获得多源扩展源,实现对社交短文本的扩展。【结果】 与已有社交短文本扩展方法相比,所提方法在准确率、召回率、F1值上最高分别提升了约13%、19%、18%。【局限】 未考虑间接关系对异质社交网络构建的影响。【结论】 利用社交网络中的异质关系能获得更为合理的扩展源,有效扩展社交短文本。

  • 研究论文
    成全, 蒋世辉, 李卓卓
    数据分析与知识发现. 2024, 8(10): 112-124. https://doi.org/10.11925/infotech.2096-3467.2023.0638
    摘要 (88) PDF全文 (22) HTML (15)   可视化   收藏

    【目的】 实现对互联网医疗健康平台用户生成的大量复杂信息的语义发现与关系揭示。【方法】 构建基于改进CasRel实体关系抽取模型的在线健康信息语义发现模型,基于CasRel模型在文本编码层引入更适用于医疗健康领域的ERNIE-Health预训练模型,在主体、关系及客体解码层使用多级指针网络标注和神经网络融合主体特征进行关系及客体的解码。【结果】 相较于原始CasRel模型,改进后的CasRel实体关系抽取模型在在线健康信息语义发现的实体识别和实体关系抽取任务中,F1值分别提升7.62个百分点和4.87个百分点。【局限】 模型的整体效果还需要在数据集的体量扩充、不同疾病类型的健康信息实证环节进行验证。【结论】 本研究提出的改进CasRel实体关系抽取模型能有效提升在线健康信息的语义发现能力。

  • 研究论文
    黄泰峰, 马静
    数据分析与知识发现. 2024, 8(3): 77-84. https://doi.org/10.11925/infotech.2096-3467.2023.0004
    摘要 (534) PDF全文 (366) HTML (162)   可视化   收藏

    【目的】解决在样本量不足的情况下,使用预训练模型进行情感分类准确率偏低的问题。【方法】提出一种基于提示学习增强的情感分类模型Pe-RoBERTa,以RoBERTa模型为基础,使用不同于传统微调方法的集成提示方法,通过提示帮助模型进一步理解下游任务,改善模型对文本情感特征的提取能力。【结果】在多个公开的中英文情感分类数据集上的实验表明,少样本场景下模型的平均情感分类准确率为93.2%,相较于传统微调和离散型提示,准确率分别提升13.8%和8.1%个百分点。【局限】处理的数据模态仅限于文本形式,目标任务主要为情感二分类任务,没有做细粒度更高的情感分类任务。【结论】Pe-RoBERTa模型能够有效地进行文本情感特征的提取,在多个情感分类任务中取得较高的准确率。

  • 研究论文
    赵佳艺, 徐月梅, 顾涵文
    数据分析与知识发现. 2024, 8(10): 44-53. https://doi.org/10.11925/infotech.2096-3467.2023.0714
    摘要 (179) PDF全文 (37) HTML (31)   可视化   收藏

    【目的】 解决多语言模型在处理新语种任务时由于灾难性遗忘导致的性能下降问题。【方法】 提出一种基于持续学习的多语言情感分析模型mLMs-EWC,将持续学习思想融入多语言模型中,使模型能够在学习新语种特征的同时,保留已学习到的旧语种语言特征。【结果】 在三种语言的持续情感分析实验中发现,mLMs-EWC模型在法语和英语任务中相比Multi-BERT模型准确率高出约5.0个百分点和4.5个百分点。此外,实验还在轻量化的蒸馏模型上评估了mLMs-EWC模型,结果显示在英语任务上准确率的提升率高达24.7个百分点。【局限】 研究聚焦于三种广泛使用的语言,对其他语言的泛化能力还需进一步验证。【结论】 mLMs-EWC模型能够在多语言情感分析任务中减轻灾难性遗忘,并在多语种数据集上实现持续学习。

  • 研究论文
    余本功, 曹成伟
    数据分析与知识发现. 2024, 8(10): 54-65. https://doi.org/10.11925/infotech.2096-3467.2023.0722
    摘要 (132) PDF全文 (34) HTML (24)   可视化   收藏

    【目的】 解决现有方面级情感分析研究利用情感知识增强句法依存图忽略了句法可达关系和各词间位置关系,且对语义信息提取不充分的问题。【方法】 提出基于位置赋权可达矩阵和多空间语义信息提取的方面级情感分析模型。首先,利用可达矩阵将各词句法可达关系加入句法依存图,依据位置赋权机制修整可达矩阵增强上下文特征提取;其次,与情感增强依存图融合提取方面词特征,并使用多头自注意力机制结合图卷积网络学习多个特征空间的上下文语义信息;最后,将包含位置信息、语法信息、情感知识和语义信息的特征向量融合进行情感极性分类。【结果】 与对比模型中较优者相比,在使用GloVe预训练语料库时,PRM-GCN-GloVe模型在数据集Lap14、Rest14、Rest15上的准确率分别提升了1.00、1.25和0.76个百分点;在使用BERT时,PRM-GCN-BERT模型在数据集Lap14、Rest14、Rest15和Rest16上的准确率分别提升了0.50、0.22、1.98和0.31个百分点。【局限】 未在中文等其他数据集上进行实验。【结论】 所提出的模型提高了图卷积特征聚合效果,增强了上下文特征提取,提升了语义学习效果,有效提升了方面级情感分析的准确性。

  • 综述评介
    李雪思, 张智雄, 王宇飞, 刘熠
    数据分析与知识发现. 2024, 8(1): 1-15. https://doi.org/10.11925/infotech.2096-3467.2023.1280
    摘要 (396) PDF全文 (1808) HTML (70)   可视化   收藏

    【目的】 领域知识演化分析是图书情报学界长期关注的一个重要研究问题。本文对国内外有关领域知识演化分析方法的研究进行总结梳理,为后续的相关研究提供参考。【文献范围】 利用领域知识演化的关键词在CNKI和Web of Science中检索,并对检索结果进行人工判读和分析,选取与领域知识演化分析方法密切相关的84篇重点文献进行综述。【方法】 通过回顾研究文献,对领域知识演化的相关概念进行辨析,在此基础上将现有的领域知识演化分析方法分为基于引用、基于结构和基于内容的三类。在对每类分析方法梳理过程中,首先辨析该类方法的理论依据,然后阐述该类方法的基本分析思路并介绍相关进展,最后对现有的领域知识演化分析方法进行总结和展望。【结果】 现有的三类领域知识演化分析方法依托于各自的科学理论,借助技术的进步和数据资源的完善,不断深化改进演化分析的思路框架;虽然取得了丰富的研究成果,但并没有在知识演化分析的研究角度上产生突破,无法根本性地解决当前研究视角下的局限性。【局限】 基于筛选后的文献进行综述分析,可能未全面覆盖相关的研究工作。【结论】 领域知识演化分析的未来研究中有以下两个方向值得重点关注:一是尝试拓展新的领域知识演化分析切入点,二是尝试交叉融合已有的研究方法以改善现有分析方法下的局限。

  • 研究论文
    付芸, 朱丽雅, 李丹, 孙蒙鸽, 张建锋, 刘细文
    数据分析与知识发现. 2024, 8(1): 30-39. https://doi.org/10.11925/infotech.2096-3467.2023.0867
    摘要 (236) PDF全文 (2138) HTML (38)   可视化   收藏

    【目的】 面对智能科研与科学机器人对高质量实验规程数据的需求,解决合成实验规程中的实验操作词统一表示问题。【方法】 综合利用数据和专家知识协同驱动的方式,从合成相关的论文与专利文本中识别并标准化实验操作词。实验操作词识别主要选用较为先进的开源大模型ChatGLM2-6B,实验操作词标准化则混合应用Wu-Palmer和余弦相似度,辅以专家经验知识判别分类的准确性。【结果】 分别获取149个无机合成实验操作词和141个有机合成实验操作词,两者交集124个词。经判定在两类合成实验中分别出现的操作词中多数并不具备鲜明的类别特色,因此可取两类合成实验操作词的并集,共计166个,用于统一表示有机、无机及其杂化合成实验操作。【局限】 仅使用基础的提示工程来激发大模型识别实验操作词,准确率有待提升;所用的数据主要源于当前免费公开的数据集,不够全面、丰富;仅关注合成、工程和基础步骤中涉及的操作词,未涉及动态、分析与命名反应中的操作词。【结论】 本文构建一套表示合成实验操作的统一语言,用于表示有机、无机及其杂化合成反应中的实验操作,不同类型的合成实验操作词在表示上差异不大,在使用频次和倾向上确有不同,今后可据此优先选择研制科学机器人相应的实验操作功能。