期刊首页 在线期刊 当期目录

2025年, 第9卷, 第11期 
刊出日期:2025-11-25
  

  • 全选
    |
    研究论文
  • 周胜利, 徐睿, 陈庭贵, 汪邵杰
    数据分析与知识发现. 2025, 9(11): 1-11. https://doi.org/10.11925/infotech.2096-3467.2024.1138
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 为解决AI换脸诈骗过程中多模态特征表征不足的问题,提出面向AI换脸诈骗的受骗风险识别模型FSFRI,有效融合多模态特征以提升受骗风险识别效果。【方法】 FSFRI模型综合欺诈信息的生成和传播过程,从中提取伪造人脸视频帧特征、流量描述特征、流量负载数据特征和流量时序特征,再通过特征融合模块实现跨模态特征的互补融合,最后通过风险识别模块实现受骗风险的判定。【结果】 在模拟实验生成的数据集中,FSFRI模型展现出高识别性能,F1值达到0.920;同时在低噪声环境中(加噪比例为0~0.2)展现出优秀的鲁棒性,在0.2的加噪比例下F1值仅小幅下降0.019。【局限】 FSFRI模型中的多模态特征产生了较高的计算复杂度,且在高噪声环境中的风险识别效果有待提升。【结论】 FSFRI模型融合了AI换脸诈骗过程中产生的多模态特征,能够有效解决受骗风险识别问题,更好地为国家电信网络诈骗智能防控提供支撑与参考。

  • 苏妍嫄, 董宵宇, 韩翠娟, 张亚明
    数据分析与知识发现. 2025, 9(11): 12-24. https://doi.org/10.11925/infotech.2096-3467.2024.1157
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 设计嵌入双通道注意力卷积的联邦学习框架,破解因隐私保护导致的跨社交网络特征提取难题,精准识别社交机器人。【方法】 首先,采用联邦学习框架实现跨社交网络数据集成;其次,在本地模型模块嵌入双通道注意力卷积以全面挖掘数据特征;再次,借助基础卷积和区块链在联邦聚合模块对各本地模型参数进行集成处理,以获取和安全保存最优模型参数。【结果】 在TwiBot-20&Weibo-bot数据集上的实验结果表明,本文所提FL-DCACNN模型的准确率、精确率、召回率和F1值分别达到91.63%、97.10%、97.14%和96.88%,且呈现较强的泛化能力。【局限】 在多模态特征提取时仅考虑了结构化数据、文本数据及图片数据,未涉及视频、音频数据。【结论】 FL-DCACNN模型可有效破解特征提取不足、数据来源单一等因素造成的社交机器人识别效果不佳问题,实现社交机器人的精准识别。

  • 布文茹, 王昊, 周抒, 石斌, 赵萌
    数据分析与知识发现. 2025, 9(11): 25-40. https://doi.org/10.11925/infotech.2096-3467.2024.1123
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 提出一种基于叙事型文本重构的多维人格计算与分析方案,探索并验证数字技术在提升文学作品人物分析深度和广度上的潜力。【方法】 研究过程包括文本重构、人格量化、模型构建和人格分析。首先,通过机器翻译、指代消解等技术抽取文本信息;其次,利用大语言模型获取人物人格描述,构建人格数据集;接着,采用深度学习框架LBA构建人格检测模型;最后,完成多维人格的数值计算与分析。【结果】 所提自动化抽取方案在文本重构中,主体人物抽取效果显示准确率均超过89%,F1值均超过74%,文本内容拆解效果显示Rouge-L在各类文本的均值达到73.01%。构建的人格检测模型MPNDM的MSE指标比两个对比模型分别降低29.08%、8.72%。通过对《三国演义》全人物及代表性人物的人格分析,揭示了人物群体与个体在人格上的差异与变化。【局限】 由于关于人物人格测度的理论与模型较为多样化,引入不同的理论模型可能得到不同的效果,因此模型泛化能力有待进一步检验与提升。【结论】 本研究基于叙事文本重构,提出多维人格数值计算方案,并验证了其在人格量化、检测与分析方面的有效性,为人物形象鉴赏研究提供了数字人文的新路径。

  • 段宇锋, 柏萍
    数据分析与知识发现. 2025, 9(11): 41-52. https://doi.org/10.11925/infotech.2096-3467.2024.1128
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 为实现谣言的早期识别,探索基于文本内容的谣言识别模型和方法。【方法】 提出一种大模型知识增强的多尺度图神经网络中文健康谣言识别模型,首先为单条文本构建文本图,捕捉句子中的隐藏信息;然后通过提示工程抽取文本中的实体信息进行知识增强;最后采用多尺度图神经网络模型,结合特征分解进行谣言识别。【结果】 本研究所提模型在CHECKED和LTCR两个数据集上的宏平均F1值分别达到95.21%和87.39%,优于基准模型。【局限】 本研究所提模型仅基于文本信息进行谣言识别,未使用图像、视频等多模态信息。【结论】 利用大模型进行知识增强不仅能更快速、便捷地抽取实体,还能提高句子的语义表达能力;利用具有特征分解的多尺度图神经网络能够在捕捉多尺度特征的同时保持计算稳定性;为每条语料单独构建文本图能够为后续应用提供便利。综合上述方法,模型整体表现得到显著提升。

  • 赵雅洁, 冯凌子, 袁军鹏, 王立学
    数据分析与知识发现. 2025, 9(11): 53-65. https://doi.org/10.11925/infotech.2096-3467.2024.1155
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 针对政策知识碎片化、结构不统一、难以系统表达显隐性知识等问题,构建适配领域特性的通用政策知识图谱方法,加强政策知识图谱顶层设计,实现政策信息的高效融合、共享和利用。【方法】 运用解构主义观点,融合对齐多理论与政策要素定位,实现多维度政策知识表示,形成模式层;结合网络获取、索引匹配、全文解析、实体识别与文本分类模型,设计细粒度知识要素抽取方法,得到数据层;利用Neo4j图数据库实现知识存储,可视化形成知识图谱。【结果】 构建了包含11种实体、14种关系、13种属性的通用本体模型,明确了29种基本要素内容的抽取标准与9种特性要素内容的获取思路,形成一套适配要素特点的高效抽取方法与支持动态更新的可视化存储方法;并以258篇科研诚信政策为例进行可行性验证。【局限】 自上而下的构建逻辑可能会忽视基层政策特性要素的创新内容。【结论】 本文提出的构建方法融合了政策通用特征与领域特性,不仅可以充分提取政策显隐性知识、揭示更深层次的政策关联,满足各领域建设多样化信息需求,还能提升跨领域政策分析水平,助力政策信息融合共享。

  • 张强, 高颖, 任豆豆, 马志远, 周洪, 陶皖
    数据分析与知识发现. 2025, 9(11): 66-76. https://doi.org/10.11925/infotech.2096-3467.2024.1131
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 针对现有时态知识图谱补全方法将图谱视为离散实体、难以准确捕捉实体与时间的互动关系,以及忽视局部图结构演化和全局结构动态表征连续形成模式的问题,本文提出一种融合时态信息和图结构动态演化的知识图谱补全模型(PaTKGC)。【方法】 PaTKGC模型首先对时态知识图谱进行向量化表示;然后通过表示强化机制聚合邻域信息,捕获局部结构演化特征;再利用注意力机制计算不同时间点事实的动态关联,学习时态演化模式;最后融合局部与全局特征完成补全。【结果】 基于公开数据集进行充分实验并与基线模型进行对比,所提模型取得了与先进模型相似的性能表现,在Hits@1和Hits@3指标上分别提升0.9和1.1个百分点;消融实验验证了所提模型改进的有效性,有效完成了时态知识图谱补全任务。【局限】 目前的知识图谱补全模型高度依赖特定格式与质量的数据,数据预处理成本高且在数据条件不佳时性能易受到影响。【结论】 本文提出的融合时态信息和图结构动态演化的知识图谱补全模型,通过表示强化和注意力机制可增强模型的时态理解和推理能力。

  • 刘启刚, 王尹凡, 牟立峰, 徐伟, 孙向阳
    数据分析与知识发现. 2025, 9(11): 77-89. https://doi.org/10.11925/infotech.2096-3467.2024.0984
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 解决传统文献分析工具不适合开展文献内容细粒度分析、不能进行文献研究问题与研究方法体系构建的问题。【方法】 构建体现文献研究问题与研究方法特色的图谱本体,基于输入序列的局部及全局上下文信息识别图谱三元组,利用大模型的通用智能提升三元组抽取的准确度,提出自然语言到图谱查询语句的转换方法,实现基于自然语言的图谱信息查询。【结果】 本文提出的三元组抽取及增强方法可以分别将实体分类和关系抽取的F1指标提升9.18和8.07个百分点;“问题与方法”图谱可以有效支撑研究热点分析与文献关联分析,在大语言模型的辅助下还可以实现高质量的图谱问答。【局限】 学术图谱的本体设计不够完善,不能满足对文献内容的全方位分析;基于GPT-4o大模型的三元组抽取运行效率比较低,不能满足大规模图谱构建需求。【结论】 “问题与方法”学术图谱能够有效辅助学者开展领域研究现状分析及问题与方法维度下的文献关联分析;大语言模型能够在学术图谱构建及应用中发挥重要作用。

  • 潘晓, 董慧, 陈晓
    数据分析与知识发现. 2025, 9(11): 90-105. https://doi.org/10.11925/infotech.2096-3467.2024.0894
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 针对多任务行程时间预测研究中刻画路段波及效应影响范围的灵活性不足以及在标注数据受限情况下模型学习能力较差的问题,提出一种基于时空图结构学习与路线特征增强的行程时间预测方法。【方法】 首先,利用动态自适应机制初始化每个时间片的空间结构,并构建基于Encoder-Only的学习组件,深入捕捉全域路网范围内路段间的时空交互依赖关系,生成高质量的波及效应时空图及相应的时空特征表示;然后,利用该表示强化路线特征的表达能力,进一步基于多头注意力机制捕捉路线的潜在上下文时空依赖关系;最后,整合预测任务的分层差异化训练机制,实现对行程时间的准确预测。【结果】 在深圳数据集上的实验结果表明,所提方法在多个性能指标上均优于基线方法。与表现最优的基线方法相比,在MAE和RMSE指标上分别降低了1.23%和5.07%,同时在MAPE指标上下降了0.61个百分点。【局限】 由于时空图神经网络计算复杂度较高,该方法仅适用于中小规模的路网场景。【结论】 基于时空图结构学习的方法可以灵活刻画路段的波及范围,生成具有高表征能力的路网时空特征表示。通过该表示强化路线特征,捕捉路线的隐式上下文时空依赖关系,并整合预测任务的差异化训练模块,从而提高了整个预测方法的泛化能力和预测稳健性。

  • 李广, 吴新年, 宁宝英
    数据分析与知识发现. 2025, 9(11): 106-118. https://doi.org/10.11925/infotech.2096-3467.2024.1067
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 为更准确、前瞻地探测研究前沿,提出一种动态计量多源数据权重的研究前沿探测方法。【方法】 采用参数化自然可视图算法构建多源数据间主题时序扩散网络模型;基于网络节点的出度中心性计量数据源权重;建立主题新颖度-密度-强度指标体系,结合对应三维坐标图区分研究前沿。【结果】 在人工智能领域进行实证,动态计算出数据源权重:战略规划0.301、科技报告0.234、基金项目0.124、专利文献0.122、会议论文0.113、期刊论文0.105;探测出8个新兴型和3个生长型研究前沿主题。【局限】 判定阈值的设定依赖人工研判,学科普适性有待进一步验证。【结论】 该方法可改善研究前沿探测中数据源权重设定依赖专家经验的问题,能够有效识别领域研究前沿,并为研究前沿探测提供“主题时序扩散”新视角。

  • 毛进, 梁瑜萱
    数据分析与知识发现. 2025, 9(11): 119-129. https://doi.org/10.11925/infotech.2096-3467.2024.1145
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 通过厘清领域的研究问题、识别领域研究方法的创新路径,掌握领域发展的重点方向和领域内方法创新的演化脉络。【方法】 首先提出方法创新知识表示模型,利用SciBERT-BiLSTM-CRF模型识别论文全文中的问题知识与方法知识;然后根据共现关系分别构建领域问题网络和方法创新网络;最后使用社区发现算法对领域问题网络进行子类划分,并采用网络全局搜索提取面向问题域的方法知识创新主路径。【结果】 从计算语言学领域发现了信息抽取、文本分类、机器翻译、文本生成和语义分析等5个问题子域,分别识别出方法知识创新子路径,总体来看,方法演化过程可分为统计方法和深度学习两个阶段。【局限】 实体抽取结果的同义词合并有待进步,实验数据集未包含最新论文。【结论】 本文方法能够有效识别领域研究问题和面向问题域的方法知识创新路径。

  • 冯岭, 潘云涛
    数据分析与知识发现. 2025, 9(11): 130-142. https://doi.org/10.11925/infotech.2096-3467.2024.1039
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 识别数据集中的学科交叉文献,为跨学科研究的精准导航与资源整合提供支撑。【方法】 提出一种基于图神经网络的学科交叉文献识别方法,通过选取的代表性文献,训练基于图神经网络的多标签分类模型,用于学科交叉文献的识别。【结果】 在仅标注5%的文献作为代表性文献的条件下,所提方法在整个数据集上的学科交叉文献识别的AUC值最高达到0.843。【局限】 只能对两个非交叉学科知识融合形成的学科交叉文献进行识别,尚不能解决多学科交叉文献的识别问题;在较大学科领域粒度和大规模数据集上的学科交叉文献识别还有待进一步验证。【结论】 相较于传统的基于文本分类的学科交叉文献识别方法,所提方法不仅具有更好的学科交叉文献识别效果,还有效地解决了有标注的训练数据集稀缺的难题。

  • 王松, 焦海燕, 刘新民
    数据分析与知识发现. 2025, 9(11): 143-152. https://doi.org/10.11925/infotech.2096-3467.2024.1086
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 深入挖掘多模态用户生成内容的主题结构与动态变化,有效提炼与分析共创知识,促进多模态知识的高效归集与利用。【方法】 综合考量多模态用户生成内容的文本语义与图像特征,基于“模型驱动+知识增强”的研究范式实现知识聚合与主题挖掘。首先,综合BERT、Doc2Vec、ResNet和K-BERT模型捕捉多层次文本和图像的深层向量表示并完成知识增强;其次,构建距离矩阵刻画多模态内容间的内在关联;最后,借助谱聚类与DTM模型深入剖析知识主题的动态演变。【结果】 利用典型在线虚拟社区数据进行验证,实验结果表明:综合“长短文本+图像+外部知识”的多模态模型能够更有效地提升知识聚合效果,CH指数达到62.25,优于其他组合模型,可以更好地厘清知识主题的演化过程。【局限】 主要基于文本和图像数据的融合应用,缺乏对音频、视频等富媒体内容的探究。【结论】 本文构建的深度学习融合模型有助于提升对多模态用户生成内容的主题识别能力和演化分析效果,提高共创知识的管理质量和利用效率。

  • 于玉海, 邢志琦, 孟佳娜, 高临霖, 王博林
    数据分析与知识发现. 2025, 9(11): 153-164. https://doi.org/10.11925/infotech.2096-3467.2024.0891
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 为解决多模态信息难以高效融合以及情绪标签之间关联性建模不足的问题,提出一种面向社交媒体的多模态多标签情感分析方法。【方法】 本文构建了一个融合单模态特有特征与多模态共有特征的模型,利用跨模态桥连接实现多模态融合,最后引入多头自注意力机制进行多标签预测,捕捉不同情绪标签之间的共现关系。【结果】 在CMU-MOSEI数据集上的实验结果表明,该模型在不同参数和对比实验中,相比于基线模型准确率有所提高,消融实验验证了各模块的有效性。同时,相较于基于单一文本、视频和语音模态的方法,本文方法在准确率方面分别提升了11.4、19.9和26.8个百分点,说明模型能够有效融合多模态信息。【局限】 对于系统性能方面,当前方法还无法准确捕捉到情感的细微差别。本文数据集无法涵盖所有可能的情感表达和文化背景,需要考虑更多样化的数据。【结论】 本文所提模型实现了有效的模态融合,在情感分析上取得了较好的结果。

  • 王震宇, 朱学芳, 张君冬, 杨睿, 刘崧印
    数据分析与知识发现. 2025, 9(11): 165-174. https://doi.org/10.11925/infotech.2096-3467.2024.1191
    摘要 ( ) PDF全文 ( ) HTML   可视化   收藏

    【目的】 针对书目搜索场景中自然语言查询难以准确映射为结构化数据库查询的问题,本文构建对话式问答系统并提出改进方法。【方法】 该系统采用模型上下文协议实现大语言模型与外部数据库的无缝集成。在此基础上,针对示例驱动的Text-to-SQL生成易受噪声与领域差异影响的问题,设计了一种基于对比学习的示例选择策略,通过微调文本嵌入模型,使其更关注查询的句法结构与检索意图,从而提升相似度排序质量。实验基于构建的书目搜索语义解析数据集进行,在零样本与少样本条件下对系统性能进行对比验证。【结果】 相较于零样本设置,采用本文方法的DeepSeek-V3模型在5-Shot场景下的SQL执行准确率提高了18.5个百分点,验证了该示例选择策略在专业领域Text-to-SQL任务中的有效性。【局限】 由于实验数据集覆盖范围有限,系统对跨领域查询的适应性仍需进一步增强。【结论】 研究证明了大语言模型结合对比学习示例选择策略在书目智能搜索场景中的有效性,可为其他垂直领域对话问答系统的构建与优化提供参考。