期刊首页 当期目录

2024年, 第8卷, 第6期 
刊出日期:2024-06-25
  

  • 全选
    |
    综述评介
  • 杨寓涵, 潘虹, 唐莉
    数据分析与知识发现. 2024, 8(6): 1-15. https://doi.org/10.11925/infotech.2096-3467.2023.1329
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对断点回归设计(RDD)在政策评估领域的经典和前沿研究进行分类综述,对其在我国政策评估的应用前景进行前瞻与讨论。【文献范围】以“Regression Discontinuity”和“断点回归”为主题词分别在Web of Science(SSCI)和中国知网数据库进行检索,人工构建2008~2022期间的中英文断点回归文献数据库。【方法】采用文献计量方法,从RDD的基本逻辑出发,甄选断点回归设计在不同政策领域的应用研究开展综述评析。【结果】分析揭示,继教育、公卫、环境、公共财政等主要应用领域之后,近年来RDD因果推断在国内外科技政策和图书情报领域的政策评估中开始崭露头角。中国学者运用该方法已取得较大进展。【局限】断点回归的文献范围有待进一步扩充,与其他政策评估方法的比较分析可进一步深入。【结论】断点回归方法自提出以来已被大量应用于教育、公共卫生、环境及科技创新等领域的政策评估研究中,未来该方法可增加与准自然实验等其他研究方法的综合研究,扩展断点回归在我国和国际定量政策评估研究的应用分析。

  • 文森, 钱力, 胡懋地, 常志军
    数据分析与知识发现. 2024, 8(6): 16-29. https://doi.org/10.11925/infotech.2096-3467.2023.0839
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】全面回顾和概述基于大语言模型的问答技术发展现状、机制原理以及应用趋势。【文献范围】选取与基于大语言模型的问答技术相关的73篇文献。【方法】系统梳理大语言模型的发展现状、参数高效微调策略,分别从面向简单问题的检索增强生成问答推理以及面向复杂问题的提示工程问题推理两方面,深入解析各技术的原理机制、应用价值与存在问题。通过定性分析,全面概述基于大语言模型的问答技术研究进展,并提出未来研究方向。【结果】开源预训练大语言模型不断涌现,高效微调策略可显著提升模型垂直领域适配性。借助文本嵌入与近似最近邻检索技术,检索增强生成技术可有效提升问答可解释性与可信度。借助精心构造的提示工程,可大幅拓展大语言模型的复杂问题推理能力。【局限】大语言模型相关研究发展迅速,调研工作未全面覆盖。【结论】基于大语言模型的问答技术在语义表示、复杂推理等多个方面均取得显著进展,融合外部知识的检索增强生成技术与提示工程技术是当前大语言模型领域的主要研究热点,未来研究工作可在生成内容可控、可信等方面展开深入探索。

  • 研究论文
  • 李红莲, 陈浩天, 张乐, 吕学强, 田驰
    数据分析与知识发现. 2024, 8(6): 30-43. https://doi.org/10.11925/infotech.2096-3467.2023.0398
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对传统的自动摘要无法深度融合评论的情感和主题信息,无法解决词汇不足的问题,提出一种融合情感-主题双通道信息的评论摘要生成模型。【方法】运用TextRank动态抽取评论主题句,借助PyABSA模型抽取主题句中的方面词-情感词序列拼接主题句得到最终的主题信息,并通过构建情感词集和融合主题的Bi-LSTM情感词抽取模型获取情感句,将评论原文和情感句进行拼接,与主题句形成双通道信息,分别采用注意力机制得到主题注意力和情感注意力,并将其叠加进行深度融合得到融合注意力,替换指针生成网络的单通道注意力,通过指针网络生成最终的评论摘要。【结果】所提融合双通道信息的指针生成网络与对比实验主题+PNG相比,在ROUGE-1、ROUGE-2和ROUGE-L值上分别提升2.87、6.14和2.64百分点,消融实验结果表明融合双通道信息比单通道信息在ROUGE-1、ROUGE-2和ROUGE-L上分别提升4.49、3.66和4.16百分点。【局限】未考虑到融合更细粒度的属性。【结论】所提模型能够有效融合评论的主题信息和情感信息,提升双通道信息融合的质量,在摘要生成结果中优于对比模型,生成的摘要能够包含更多的情感和主题信息。

  • 毛进, 陈子洋
    数据分析与知识发现. 2024, 8(6): 44-55. https://doi.org/10.11925/infotech.2096-3467.2023.0448
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探究不同深度主动学习方法对科技文献摘要的结构功能识别效果和标注成本。【方法】提出基于主动学习和序列标注的科技文献摘要结构功能识别方法,构建考虑句间上下文序列信息的SciBERT-BiLSTM-CRF模型(SBCA),然后分别提出基于摘要单句和摘要全文两个维度的基于不确定性的主动学习策略,并在PubMed 20K数据集上进行实验。【结果】SBCA模型具有最佳的识别效果,与不考虑序列信息仅使用SciBERT模型相比,F1值提升了11.93个百分点。使用基于整篇摘要的最小置信度策略达到SBCA模型的最优F1值仅需使用60%数据,使用基于单句的最小置信度策略达到SBCA模型的最优F1值仅需使用65%数据。【局限】本研究中仅构建了基于不确定性的主动学习查询策略,未考虑构建其他类别的查询策略。【结论】基于深度主动学习的方法有助于在更低注释成本的前提下进行摘要结构功能识别。

  • 刘磊, 梁茂成
    数据分析与知识发现. 2024, 8(6): 56-68. https://doi.org/10.11925/infotech.2096-3467.2023.0350
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】实现多语种句子的自动对齐,为基于平行语料库的数字人文和机器翻译研究提供支持。【方法】采用跨语言句向量技术,将待对齐的双语文本映射到一个共享的向量空间,基于双轮动态规划和改进版余弦相似度算法抽取双语文本中的平行句对。【结果】通过直接评测和间接评测两种方式评估系统性能:直接评测的平均准确率、召回率和F1值分别为0.950、0.960和0.955;间接评测的chrF、chrF++和COMET值分别为55.65、55.85和87.31。【局限】融合文档对齐和句子对齐的语料采集平台有待开发。【结论】所提方法在两类评测任务中的性能均优于现有方法,有助于构建大规模、高质量的多语种平行语料库。

  • 熊曙初, 李轩, 吴佳妮, 周赵宏, 孟晗
    数据分析与知识发现. 2024, 8(6): 69-81. https://doi.org/10.11925/infotech.2096-3467.2023.0319
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】解决因中文独特表达与词义变迁现象导致的文本特征抽取偏移与模糊语义分离困难等问题。【方法】提出一种有监督对比学习语义优化方法。首先使用预训练模型生成语义向量;其次设计有监督联合自监督方法构造对比样本对;最后构建有监督对比损失进行语义空间度量与优化。【结果】在ChnSentiCorp数据集上,经所提方法优化后的5种主流神经网络模型F1值分别实现了2.77~3.82个百分点的提升。【局限】受限于硬件资源,未构建数量更大的对比学习样本对。【结论】语义优化方法可以有效解决特征抽取偏移与模糊语义分离困难等问题,为文本情感分析任务提供新的研究思路。

  • 彭竞杰, 顾益军, 张岚泽
    数据分析与知识发现. 2024, 8(6): 82-94. https://doi.org/10.11925/infotech.2096-3467.2023.0542
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】构造融合用户传播倾向信息的推文交互超图谣言检测模型,提高谣言检测准确率。【方法】提出一种名为UPBI_HGRD的谣言检测模型。该模型在获取推文节点嵌入表示时融合了用户传播倾向信息,并根据用户ID构造超边,形成能够反映推文交互关系的超图。此外,提出推文节点-用户超边级多层双级多头注意力机制关注重要的推文关系,从而有效学习节点的嵌入表示,最后将其输入分类器中判断是否是谣言。【结果】在三个公开数据集上的实验结果表明,所提模型的准确率分别达到了94.57%、97.82%和94.76%,优于基线模型,并具有优秀的谣言早期检测性能,证明了模型的有效性。【局限】获取融合用户传播倾向信息的推文嵌入表示以及构建超图的过程有一定时间开销,未来将从提高模型的时间效率等方面开展进一步研究。【结论】UPBI_HGRD模型可以有效提高谣言检测的准确率,为网络谣言的识别提供了新思路。

  • 王根生, 朱奕, 李胜
    数据分析与知识发现. 2024, 8(6): 95-106. https://doi.org/10.11925/infotech.2096-3467.2023.0314
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提高社交媒体中谣言实时检测的准确率,降低谣言传播危害。【方法】提出一种融合知识图谱的图注意力神经网络谣言实时检测方法。首先,通过知识蒸馏从外部知识图谱中获取文本内容的背景知识;其次,通过点互信息把文本和背景知识转化为加权图结构表示,利用一种考虑边权重的图注意力神经网络从加权图中学习文本的非连续语义特征;然后,通过预训练语言模型BERT学习文本的连续语义特征,利用嵌入方法把用户和内容统计特征转化为连续向量表示;最后,融合所有特征,输入全连接神经网络中进行谣言检测。【结果】在两个公开的社交媒体谣言数据集PHEME和WEIBO上的实验结果表明,所提方法的准确率分别达到了92.1%和84.0%,优于对比基线方法。【局限】所提方法没有融合帖子中可能附加的图片或视频信息,不能进行多模态融合的谣言检测。【结论】融合背景知识可以补充短文本的语义表示,融合用户和内容统计特征可以辅助文本语义特征作决策,提高检测的准确率。

  • 赵欢, 徐桂琼
    数据分析与知识发现. 2024, 8(6): 107-118. https://doi.org/10.11925/infotech.2096-3467.2023.0374
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】为了降低社交网络中种子节点之间的影响重叠程度,提出基于投票机制的社交网络影响力节点集识别算法KSEVoteRank。【方法】综合考虑节点重要性和邻域信息,定义节点投票能力,设计投票分配策略,同时引入衰减因子折扣邻居的投票能力,最后基于投票得分迭代选出高影响力节点。【结果】实验结果表明,在大型社交网络Ca-AstroPh数据集中KSEVoteRank算法选出的影响力节点集的影响重叠程度比VoteRank算法降低约21%。【局限】在重复投票过程中,设置邻居的投票分配策略不变,可能导致一些误差。【结论】基于投票机制的KSEVoteRank算法能够分散性选取高影响力节点,实现较大范围的影响传播。

  • 裘江南, 徐雪冬, 谷文静, 金碧瑶
    数据分析与知识发现. 2024, 8(6): 119-131. https://doi.org/10.11925/infotech.2096-3467.2023.0630
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】研究不同人格特质与公众的信息需求之间的关系,揭示不同人格特质公众的信息需求的差异。【方法】选取语言学与行为特征构建人格分类模型并预测公众人格特质,基于关键短语提取方法、Jaccard文本聚类方法与ERG理论进行信息需求挖掘与归类,采用单因素方差分析与逻辑回归分析方法研究公众不同人格特质与公众的信息需求类别之间的关系。【结果】公众的信息需求涵盖医疗资源、预防、症状、诊断与治疗、公众症状情绪分享、情感支持、疾病认知、社会影响和疫情发展9个主题,最后归为生存信息需求、关系信息需求、成长信息需求三类。生存信息需求与严谨性正相关;关系信息需求与外向性正相关,与神经质负相关;成长信息需求与神经质和宜人性正相关。【局限】没有考虑公众的信息需求动态性这一特征,后续研究可对事件不同发展阶段的公众的信息需求做进一步分析。【结论】研究结果能够帮助政府部门深刻理解不同人格特质公众差异性的信息需求,为政府相关部门有针对性地进行智慧化信息公开与风险沟通提供支持。

  • 刘晓豫, 汪雪锋, 朱东华
    数据分析与知识发现. 2024, 8(6): 132-143. https://doi.org/10.11925/infotech.2096-3467.2023.0270
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对科研项目同行评议过程,测度专家知识对科研项目主题的覆盖,并通过主题覆盖度为科研项目推荐评审专家组。【方法】提出科研项目评审专家组推荐的三个原则:主题覆盖度最大原则、知识匹配度最大原则、工作量适宜原则。提出基于Overlapping K-means的专家和待评审项目研究主题识别方法,以识别专家和待评审项目的一个或多个研究主题。以主题覆盖度最大为优化目标,提出基于主题覆盖度的专家组推荐模型,通过将推荐问题转化为优化问题,实现科研项目评审专家组的推荐。【结果】案例研究结果表明,通过本文方法构建的专家组在主题覆盖度上平均达到65.13%,相比于两组对照实验分别提高32.38个百分点和29.01个百分点。【局限】案例研究的样本量较为有限,未定量化探讨如何实现科研项目评审专家组推荐三个原则的多目标优化。【结论】本文提出的方法可以有效提高科研项目评审专家组对科研项目的主题覆盖度。

  • 岳崇浩, 张剑, 吴义熔, 李小龙, 华晟, 童顺航, 孙水发
    数据分析与知识发现. 2024, 8(6): 144-157. https://doi.org/10.11925/infotech.2096-3467.2023.0931
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】应对中文医疗术语标准化存在的短文本、相似性高、单蕴含与多蕴含等挑战,研究基于融合多策略对比学习的召回-排序-数量预测研究框架。【方法】首先,融合文本统计特征和深度语义特征进行候选召回,依据相似度分数获取候选实体集;其次,候选排序将原始术语、标准实体、来自候选召回的候选实体结合预训练模型与对比学习策略训练向量表示,依据余弦相似度重新排序;再次,数量预测通过多头注意力更新原始词的向量表示,预测原始术语中蕴含标准实体的数量;最后,融合候选召回和候选排序的相似度分数,基于数量预测结果按照顺序选取对应标准实体。【结果】在中文医疗术语标准化数据集Yidu-N7k上进行性能评估,与统计模型、主流深度学习模型进行比较,融合多策略对比学习的标准化框架的准确率达到92.17%,对比基于预训练的二分类基线模型最多提高0.94个百分点。同时,在自制的150例女性乳腺癌钼靶检查报告数据集上,融合多策略对比学习的标准化框架的准确率达到97.85%,性能最优。【局限】实验只在医疗数据集上展开,在其他领域的有效性需进一步研究。【结论】多策略的候选召回可以全面地考虑文本信息能够应对短文本挑战;对比学习的候选排序能够捕捉文本细微差距能够应对相似性高挑战;多头注意力的数量预测能够增强向量表示能够应对单蕴含与多蕴含挑战。融合多策略对比学习的中文医疗术语标准化方法为促进医学信息挖掘和临床研究提供了潜力。

  • 刘春江, 李姝影, 方曙, 胡正银, 钱力
    数据分析与知识发现. 2024, 8(6): 158-168. https://doi.org/10.11925/infotech.2096-3467.2023.0492
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对专利技术三元组自动抽取的准确性和效率不高的问题,研究专利技术三元组抽取的模型,以提升个性化、细粒度、多维度的深度抽取与语义关联的准确性。【方法】针对技术问题、解决方案、技术功能与技术效果等4个技术主题维度,提出基于WeakLabel-Bert-BiGRU-CRF模型的抽取方法,使用宏平均等指标进行模型评估。【结果】选择石墨烯能量存储应用领域专利作为数据集,实验结果表明,相比于Bert-BiGRU-CRF模型,所提模型针对三元组抽取的宏平均超过0.8,进一步减轻了数据标注的工作量,抽取效果更好。【局限】所提模型需要领域专家和专利情报分析人员共同参与数据标注,标注质量的不同会对应用效果产生影响【结论】基于WeakLabel-Bert-BiGRU-CRF模型,研建对应的原型系统,以便后续进一步使用与推广专利技术三元组抽取方法,在科技文献知识挖掘领域也有较广泛的应用前景。