数据分析与知识发现

Select

朱宇婧, 陈芳, 王学昭

数据分析与知识发现. 2024, 8(10): 1-13. https://doi.org/10.11925/infotech.2096-3467.2023.0699

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对西方国家对华技术出口管制场景，提出一种在商业管制清单-专利双层网络中映射的关键核心技术识别方法，为遴选和布局技术攻关方向提供参考。【方法】 融合美国商业管制清单（CCL）和专利数据，构建管制清单关联网与加权专利引用网的双层网络，在双层网络中分别采用社区发现算法识别技术集群，计算层间集群的语义相似度实现自动映射，并结合Word2Vec与n-gram方法提取集群关键词用于表征技术主题，与CCL集群相似度最大的专利集群所表征的技术即为关键核心技术。【结果】 在工业软件领域进行实证的结果表明，所提方法识别出与CCL集群相似度最大的12个不同专利集群，其相似度均在0.85以上，涉及集成电路IP核、精密测量、过程控制、运动控制和涡轮检测等主题，经文献调研验证为工业软件领域的关键核心技术。【局限】 仅选取工业软件进行实证研究；技术路线还有待改进；识别结果有待进一步解读分析。【结论】 所提方法不仅能够在微观层次高效、准确地识别出关键核心技术，并且自动化程度高、结果易读性强，具有较高的实际应用价值。

Select

融合异构网络表示学习与注意力机制的引文推荐研究^*

张金柱, 孙雯雯, 仇蒙蒙

数据分析与知识发现. 2024, 8(10): 14-27. https://doi.org/10.11925/infotech.2096-3467.2023.0724

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 扩展涉及引文推荐的异构网络涵盖的节点及其关系，对其进行深层次语义表示，揭示不同关系对引文推荐的影响和差异，提高引文推荐效果。【方法】 在引入语义链接构建异构网络的基础上，构建融合注意力机制的异构网络表示学习模型，生成深层次的语义和结构表示，引入相似度指标实现引文推荐，并通过消融实验探索不同因素对引文推荐的影响程度。【结果】 引入语义链接前后引文推荐模型AUC相对提升0.012；引入双层注意力机制前后AUC相对提升0.079；对比基线模型CR-HBNE，其AUC和AP分别提升0.185和0.204。【局限】 手动选取关联路径不够高效，仅根据两项指标对推荐结果进行评价。【结论】 本文方法充分利用引文间的复杂关联和深层语义信息，有效提升引文推荐效果。

Select

基于图与语义表示学习的专利引文网络链路预测研究*

胡威, 李姝影, 张鑫, 杨宁

数据分析与知识发现. 2024, 8(10): 28-43. https://doi.org/10.11925/infotech.2096-3467.2024.0737

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究优化专利引文网络链路预测模型，以提升技术演化分析和预测效果，进一步完善技术扩散理论与方法。【方法】 针对专利文献的特点，构建一种新的链路预测模型框架Graph-PatentBERT-RF。首先，利用GraphSAGE模型获得训练集专利引文网络的向量化表示，利用PatentBERT模型得到4个主题维度的专利技术文本的语义表示向量。其次，融合两部分向量结果以及其他特征，进行随机森林模型训练，最终得到优化后的专利引文网络的链路预测概率值。【结果】 在量子传感领域进行实证研究，Graph-PatentBERT-RF模型的综合预测性能效果最优，F1-score指标高于基线模型2.2%以上，并阐释了引用关系与多维度技术文本、时滞等特征之间的非线性关系以及特征之间4层以上的复杂交互作用。【局限】 数据预处理步骤有待优化，有望进一步提升模型性能。【结论】 本文模型提升了专利引文网络的综合预测性能，为当前引文数据不完整的问题给出了优化解决办法，有助于多种基于引文网络的技术演化分析等应用研究的发展。

Select

基于持续学习的多语言情感分析模型^*

赵佳艺, 徐月梅, 顾涵文

数据分析与知识发现. 2024, 8(10): 44-53. https://doi.org/10.11925/infotech.2096-3467.2023.0714

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决多语言模型在处理新语种任务时由于灾难性遗忘导致的性能下降问题。【方法】 提出一种基于持续学习的多语言情感分析模型mLMs-EWC，将持续学习思想融入多语言模型中，使模型能够在学习新语种特征的同时，保留已学习到的旧语种语言特征。【结果】 在三种语言的持续情感分析实验中发现，mLMs-EWC模型在法语和英语任务中相比Multi-BERT模型准确率高出约5.0个百分点和4.5个百分点。此外，实验还在轻量化的蒸馏模型上评估了mLMs-EWC模型，结果显示在英语任务上准确率的提升率高达24.7个百分点。【局限】 研究聚焦于三种广泛使用的语言，对其他语言的泛化能力还需进一步验证。【结论】 mLMs-EWC模型能够在多语言情感分析任务中减轻灾难性遗忘，并在多语种数据集上实现持续学习。

Select

基于PRM-GCN的方面级情感分析研究^*

余本功, 曹成伟

数据分析与知识发现. 2024, 8(10): 54-65. https://doi.org/10.11925/infotech.2096-3467.2023.0722

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决现有方面级情感分析研究利用情感知识增强句法依存图忽略了句法可达关系和各词间位置关系，且对语义信息提取不充分的问题。【方法】 提出基于位置赋权可达矩阵和多空间语义信息提取的方面级情感分析模型。首先，利用可达矩阵将各词句法可达关系加入句法依存图，依据位置赋权机制修整可达矩阵增强上下文特征提取；其次，与情感增强依存图融合提取方面词特征，并使用多头自注意力机制结合图卷积网络学习多个特征空间的上下文语义信息；最后，将包含位置信息、语法信息、情感知识和语义信息的特征向量融合进行情感极性分类。【结果】 与对比模型中较优者相比，在使用GloVe预训练语料库时，PRM-GCN-GloVe模型在数据集Lap14、Rest14、Rest15上的准确率分别提升了1.00、1.25和0.76个百分点；在使用BERT时，PRM-GCN-BERT模型在数据集Lap14、Rest14、Rest15和Rest16上的准确率分别提升了0.50、0.22、1.98和0.31个百分点。【局限】 未在中文等其他数据集上进行实验。【结论】 所提出的模型提高了图卷积特征聚合效果，增强了上下文特征提取，提升了语义学习效果，有效提升了方面级情感分析的准确性。

Select

基于提示集成的少样本关系抽取方法*

徐豪帅, 洪亮, 侯雯君

数据分析与知识发现. 2024, 8(10): 66-76. https://doi.org/10.11925/infotech.2096-3467.2023.0973

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决标注数据稀缺时基于提示学习关系抽取方法标签映射难以构建的问题。【方法】 在提示模板中注入关系语义增强提示效果，利用提示集成对输入进行数据增强，通过实例级注意力机制在原型构建过程中提取重要特征。【结果】 在公开数据集FewRel上，本文方法的准确率在4种少样本测试场景下分别超越了基线模型2.13个百分点、0.55个百分点、1.40个百分点和2.91个百分点。【局限】 在提示模板构造上没有使用可学习的虚拟提示模板，在回答词表示上仍有优化空间。【结论】 本文方法有效缓解了少样本场景下原型构建信息有限、准确性不足的问题，提升了模型在少样本关系抽取任务上的准确性。

Select

基于两层异质网络的社交短文本扩展研究^*

吴树芳, 王宏彬, 朱杰, 陈婷

数据分析与知识发现. 2024, 8(10): 77-88. https://doi.org/10.11925/infotech.2096-3467.2023.0703

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为了解决社交短文本碎片化、网络用语化的问题，利用社交网络中的异质关系实现对社交短文本的扩展。【方法】 基于离散度度量社交信息中热点词的不均匀度，以此改进TF-IDF方法，获取初始特征；依据社交网络中的异质关系，构建包括三个子网络的两层异质社交网络，量化网络中用户的重要程度、文本相似度以及用户对社交文本的认可度，获得多源扩展源，实现对社交短文本的扩展。【结果】 与已有社交短文本扩展方法相比，所提方法在准确率、召回率、F1值上最高分别提升了约13%、19%、18%。【局限】 未考虑间接关系对异质社交网络构建的影响。【结论】 利用社交网络中的异质关系能获得更为合理的扩展源，有效扩展社交短文本。

Select

基于迁移学习增强的多标签多文档分类模型的补充性问答推荐研究^*

李莹, 李明

数据分析与知识发现. 2024, 8(10): 89-99. https://doi.org/10.11925/infotech.2096-3467.2023.0683

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对在线问答社区的问答文档识别和推荐补充性问答，提出一种基于迁移学习增强的多标签多文档分类模型的补充性问答推荐方法。【方法】 提出新的特征与已有特征一起用于问答补充关系分类，建立迁移学习增强的多标签多文档分类模型，用于识别和推荐补充性问答。【结果】 在知乎社区真实数据集上三个元任务的结果表明，本文所提推荐方法的精确度、召回率和F1值平均提升48.29%、15.75%和32.53%。【局限】 仅将方法应用在知乎的健康问答主题上，未验证在不同平台与不同主题问答中的效果。【结论】 本文所提推荐方法能够有效推荐补充性问答，帮助问答社区用户更加全面地获取问答，促进社区中知识的利用。

Select

字音和字形能有效增强汉字的表示吗?——基于命名实体识别任务的验证^*

段宇锋, 张美聪, 刘宴佐, 贺国秀

数据分析与知识发现. 2024, 8(10): 100-111. https://doi.org/10.11925/infotech.2096-3467.2023.0665

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 验证汉字的字音和字形对增强汉字表示的有效性。【方法】 基于命名实体识别任务，分别以通用嵌入模块、双向LSTM模块、Softmax激活的全连接网络模块作为模型的基准字嵌入层、上下文编码层、解码层，在MSRA、PeopleDaily、CCKS2017、Resume、E-Commerce等数据集上，比较以汉字拼音、汉字图像、五笔字型码、四角码、仓颉码、偏旁部首增强字嵌入后Micro-F1值和各实体F1值的变化。【结果】 使用字音、字形增强字嵌入，模型在MSRA、PeopleDaily数据集上的性能下降近0.010，在CCKS2017、Resume、E-Commerce数据集上的性能变化无统计学意义。【局限】 仅使用32×32像素的简体字图像，可能影响字形特征的提取。【结论】 字音、字形特征在增强字的表示的同时也引入了噪音，在不同语料和实体上表现出差异化的效果。

Select

基于改进CasRel实体关系抽取模型的在线健康信息语义发现研究*

成全, 蒋世辉, 李卓卓

数据分析与知识发现. 2024, 8(10): 112-124. https://doi.org/10.11925/infotech.2096-3467.2023.0638

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 实现对互联网医疗健康平台用户生成的大量复杂信息的语义发现与关系揭示。【方法】 构建基于改进CasRel实体关系抽取模型的在线健康信息语义发现模型，基于CasRel模型在文本编码层引入更适用于医疗健康领域的ERNIE-Health预训练模型，在主体、关系及客体解码层使用多级指针网络标注和神经网络融合主体特征进行关系及客体的解码。【结果】 相较于原始CasRel模型，改进后的CasRel实体关系抽取模型在在线健康信息语义发现的实体识别和实体关系抽取任务中，F₁值分别提升7.62个百分点和4.87个百分点。【局限】 模型的整体效果还需要在数据集的体量扩充、不同疾病类型的健康信息实证环节进行验证。【结论】 本研究提出的改进CasRel实体关系抽取模型能有效提升在线健康信息的语义发现能力。

Select

“论文工厂”的自动检测特征模型研究^*

胡天翼, 刘建华, 鄂海红, 丁峻鹏, 乔晓东

数据分析与知识发现. 2024, 8(10): 125-135. https://doi.org/10.11925/infotech.2096-3467.2023.0937

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探索“论文工厂”论文自动检测的特征模型，构建从多个维度自动化甄别“论文工厂”论文的工具，为我国科研诚信治理和学术出版质量控制提供重要支持。【方法】 从撤稿观察等网站搜集“论文工厂”论文的撤稿记录及关联数据资源，构建用于训练及评价“论文工厂”自动化检测模型的首个公开数据集，构建文本随机游走策略与文本注意力机制的“论文工厂”论文分类模型（RWTA-Model），建模33种“论文工厂”文法特征，并使用SHAP方法自动挖掘显著特征。【结果】 基于标题结构特征、基于摘要结构特征、基于正文结构特征F1值分别达到0.766 9、0.842 3、0.848 0。对于三种文章结构数据，所提方法与多种基线方法对比均取得了最好的结果，并挖掘了12种显著的文法特征。【局限】 支撑特征构建的数据集集中于生物医学领域，存在领域偏见的潜在风险。【结论】 构建的“论文工厂”标题、摘要和正文结构三个维度的分类模型与33种维度的自动检测特征模型，可以有效甄别出“论文工厂”论文并挖掘多维度特征，支撑“论文工厂”论文的自动化检测。

Select

一种科研机构整体预算绩效评价预测方法

何峻, 于建军, 荣晓慧

数据分析与知识发现. 2024, 8(10): 136-145. https://doi.org/10.11925/infotech.2096-3467.2023.0645

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 保证科研机构整体预算绩效评价的客观性、及时性和准确性，提升绩效评价工作效率。【方法】 提出一种基于LightGBM的科研机构整体预算绩效评价预测方法，融合科研管理信息化系统多元数据，依据科研投入和成果产出数据与科研绩效间的相关性，利用机器学习算法分析和预测科研机构整体预算绩效评价结果。【结果】 在科研机构整体预算绩效评价应用中，本文提出的绩效评价预测方法准确率为94.12%，预算绩效评价过程所需的人力资源由原来的10人减少至5人，时间成本由原来的38天左右降低至10天左右。【局限】 部分绩效评价指标为主观指标，难以通过科研管理信息化系统中的业务数据进行量化。【结论】 本文方法在整体预算绩效评价结果预测中表现优异，能够减少主观评价带来的公允性问题，同时还能节省预算绩效评价工作的人力资源和时间成本，提高绩效评价效率。

Select

CCI-ClipCap：一种基于Prompt范式的中国陶瓷图像描述模型*

石斌, 王昊, 刘懋霖, 邓三鸿

数据分析与知识发现. 2024, 8(10): 146-158. https://doi.org/10.11925/infotech.2096-3467.2023.0688

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 构建中国陶瓷图像描述模型CCI-ClipCap，为陶瓷文化研究和数字化保护提供技术支撑。【方法】 在ClipCap的基础上，引入Prompt范式改善模型对跨模态数据的理解，实现对陶瓷图像的自动描述，提出一种针对具有一定表述结构的文本相似度评估方法。【结果】 CCI-ClipCap模型利用Prompt范式改进了多模态融合过程，能够很好地提取陶瓷图像的信息，并生成与实际相符的描述文本，Bleu、Rouge值等相较于基线模型分别提升了约0.04、0.14。【局限】 所使用的数据来源于大英博物馆的馆藏数据，而非中文原生数据集，数据来源较为单一。【结论】 CCI-ClipCap模型生成的文本表达层次丰富，能够理解陶瓷领域知识，具有较强的专业性。

选择文件类型/文献管理软件名称

选择包含的内容

2024年, 第8卷, 第10期　
刊出日期：2024-10-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2024年, 第8卷, 第10期 刊出日期：2024-10-25

2024年, 第8卷, 第10期　
刊出日期：2024-10-25