数据分析与知识发现

Select

基于语义增强和双重跨模态融合的仇恨模因检测

黄有为, 钟寒

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0408

预出版日期: 2026-02-09

摘要 (3) PDF全文 HTML

可视化

[目的]为解决现有仇恨模因检测中存在的语义信息不足和跨模态融合不充分的问题，提出一种基于语义增强与双重跨模态融合架构的检测方法，以提升检测的准确性。[方法]利用BLIP模型生成图像描述以增强文本语义，并引入动态残差结构与指数加权策略，构建双重跨模态特征融合框架，最终通过余弦分类器完成仇恨模因的检测。[结果]在PrideMM与Harm-P两个数据集上，本文方法的准确率分别比次优模型提升1.0% 和2.8%，显著优于基线模型。[局限]模型仅使用图像和文本模态，对于涉及视频、音频等更复杂模态的仇恨内容尚未覆盖。[结论]本文模型利用语义增强与双重跨模态融合，有效捕获图文模态间的深层语义关联，从而提升了仇恨模因检测的准确性。

Select

基于智能体知识注入的少样本关系分类方法

洪亮, 周嘉诚, 徐青影

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0729

预出版日期: 2026-02-09

摘要 (2) PDF全文 HTML

可视化

[目的]通过引入智能体对外部知识进行对齐和增强，优化知识稀疏条件的表示，解决少样本关系分类的非上述关系（NOTA）检测中存在的类内高相似性和类间模糊性问题。[方法]利用概念图谱弥补少样本场景下的知识稀缺，设计知识增强智能体以动态对齐外部语义。同时，构建多推理路径的思维树，以增强知识注入的准确性，从而获得更精确的原型表示，通过增强原型网络中NOTA检测的适应能力提升关系分类的准确率。[结果]本文模型在FewRel和Few-shot tacred数据集引入NOTA设置下，较SOTA分别提升2.55%和2.92%；在标准设置下，分别提升3.19%和1.92%。消融实验进一步验证了各模块的有效性。[局限]本文模型需要构建概念图谱，并基于数据集中的实体关系进行多跳概念集合的检索，这在一定程度上增加了构建成本和时间开销。[结论]本文提出的智能体增强的适应型原型网络优化了传统的知识增强方法和原型网络方法，为少样本关系分类任务，尤其是NOTA检测，提供了一种新的高效且准确的思路。

Select

SGKD：面向高效小语言模型推理的分段引导知识蒸馏方法研究

柳馗, 李晨亮

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0867

预出版日期: 2026-02-09

摘要 (3) PDF全文 HTML

可视化

[目的] 针对小语言模型因容量受限而在蒸馏长思维链时面临推理性能提升有限、输出冗长的问题，本文提出分段引导知识蒸馏方法SGKD。[方法] SGKD首先将长思维链自动切分为逻辑独立的片段并附加高层语义摘要，构建结构化知识表示；随后通过监督微调使小语言模型高效吸收此类结构化知识，增强其复杂逻辑推理能力；最后引入融合推理偏好优化的两阶段拒绝采样机制，引导生成简练且正确的推理路径。[结果] 在GSM8K、MATH500和AIME25等数学推理基准上，本方法均优于现有基线模型，具体而言，相比于传统的长思维链蒸馏方法，本方法在Qwen系列模型上取得平均2.27个百分点的性能提升，同时推理过程的平均输出长度显著减少了41.06个百分点。[局限] 当前方法未考虑对非推理能力提升的作用。[结论] 本文为提升小语言模型的复杂推理能力提供了一条有效且高效的路径，在保证性能增益的同时，显著优化了模型输出效率。

Select

大语言模型提示增强的多项选择机器阅读理解模型

郝熙平, 余传明, 张殿元, 付雪晴

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0774

预出版日期: 2026-02-09

摘要 (2) PDF全文 HTML

可视化

[目的]针对当前大语言模型的多项选择机器阅读理解方法普遍存在的计算成本高昂以及提示增强精度偏低的问题，本文结合思维链提示增强与双向匹配策略提升本地小型模型的推理能力。[方法] 本文提出一种大语言模型提示增强的多项选择机器阅读理解框架Prompt-MCRC。该框架以大语言模型作为教师模型，通过思维链提示引导本地学生模型分别归纳与融合教师模型的推理范式及辅助信号，并利用双向匹配机制增强细粒度的语义关联。同时，本文自主构建一种基于日本语能力测试的多项选择机器阅读理解数据集JLPT-MC。[结果]本文模型在C3-M、RACE-M、JGLUE、JaQuAD与JLPT-MC数据集上的性能均优于单一本地模型基线，且在JaQuAD与JLPT-MC上的准确率相较最优大语言模型基线分别提升0.83和2.89个百分点。[局限]由于人工成本限制，本文自建数据集规模偏小，未来将采取自动生成方式扩大数据集规模。[结论]本文模型利用思维链提示增强与双向匹配策略，切实提升本地模型在多项选择机器阅读理解任务中的推理性能，也为该领域的多语言研究提供了新的数据基础与研究视角。

Select

基于大语言模型辩论的多被告法律判决预测研究

钟邓鹏姬亚平

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0577

预出版日期: 2026-02-09

摘要 (3) PDF全文 HTML

可视化

[目的]针对现有法律判决预测方法在处理多被告案件时对被告间复杂交互考虑不足，导致预测精度不高的问题，构建名为MD-CRL Judge的四阶段框架。[方法]首先，引入检索增强知识融合机制。其次，设计多智能体协同分析模块解析案件。再次，采用多阵营辩论式推理深化事实和法律适用分析。最后，由法官智能体综合案件材料、检索知识与辩论记录，输出面向每名被告的罪名预测结果。[结果] 在CMDL-small数据集上进行消融实验和对比实验。实验结果表明：所提模型表现最优，Accuracy、MP、MR、F1值分别达到83.16%、72.33%、70.17%、69.48%。[局限]本文方法基于多智能体协同和辩论，需多次调用大语言模型，其推理成本相对较高。[结论] MD-CRL Judge框架能够有效模拟司法推理过程，提升多被告法律判决预测的准确性，为智慧司法提供了新路径和技术支持。

Select

不同大语言模型在催化剂细粒度复杂信息提取中的性能比较研究

李丹, 王燕鹏, 王学昭, 刘细文, 张迪, 邹丽雪, 陈莉玥

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0525

预出版日期: 2026-02-09

摘要 (5) PDF全文 HTML

可视化

[目的]对比不同大语言模型与基于规则/机器学习的传统方法在文献全文细粒度催化剂信息抽取任务中的性能差异，并基于抽取结果分析催化剂研究的发展态势。[方法]构建涵盖194篇催化剂领域全文的标注数据集，选取Deepseek、Gemini与ChatGPT三种模型及ChemDataExtractor工具包进行性能对比，并基于抽取结果开展数据分析。[结果]在催化剂相关细粒度复杂信息提取中，DeepSeek-v3.1-250821表现最优，其整体平均宏F1值为0.88。ChemDataExtractor的精确率虽高达0.91，但其F1值仅为0.53，在对比模型中最低。数据分析同时揭示出部分典型催化剂技术路线及关键性能指标。[局限]本研究的实验数据仅涵盖英文文献，且信息抽取范围局限于论文文本层面，部分关键信息（如催化剂稳定性指标）因常以图像形式呈现而未能有效捕获。[结论]多模型实验结果对比表明，大语言模型结合提示工程策略在催化剂信息抽取中展现出整体优势，其中DeepSeek-v3.1-250821表现最佳，可为催化剂知识挖掘与技术评估服务场景提供有力支撑。

Select

基于维基百科的长距离概念先决关系发现

肖奎, 谭顺风, 孙诗婧, 张淼, 李志飞, 张龑, 王时绘

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0238

预出版日期: 2026-02-09

摘要 (2) PDF全文 HTML

可视化

[目的]概念先决关系是一种知识之间的依赖关系，它决定着一个领域中知识概念的学习顺序，可用于课程规划、学习路径设计等教育场景。现有方法通常利用图的邻接矩阵聚合每个概念节点的邻居信息，进行先决关系识别。然而，知识概念往往具有长距离依赖性，而现有方法在很大程度上忽略了这一问题。[方法]为解决此问题，本文提出一种基于维基百科的长距离概念先决关系发现方法（LongCPR）。具体而言，本文将维基百科词条标题视为概念，并以概念为节点构建领域的概念引用图和概念导航图，进而分别通过图的邻接矩阵和PPMI矩阵提取概念的短距离和长距离特征，最终实现概念先决关系（特别是长距离先决关系）的准确预测。[结果]LongCPR方法在多个公开数据集上表现均优于基线模型，其中在MOOC数据集中的ROC曲线下面积达到了92.18%，与现有方法相比提高了2.04%。[局限]LongCPR方法主要依赖维基百科知识库的内容，因此对于维基百科中不存在的概念，其先决关系的预测会受到一定的影响。[结论]在三个真实世界数据集上的实验结果表明，本文方法在短距离与长距离概念先决关系预测中优于现有方法。

Select

SQLGPT：基于检索增强生成的自然语言转SQL大模型

刘甜甜, 彭放, 朱天佑, 杨超

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0679

预出版日期: 2026-01-19

摘要 (21) PDF全文 HTML

可视化

[目的]为解决自然语言转SQL模型在落地场景中因真实数据库信息缺失导致生成SQL语句逻辑和执行准确率低的问题，本文探索将检索增强技术深度融入SQL语句生甘草过程的有效性，旨在构建能精准理解用户意图、自动对齐库表结构并生成可执行SQL语句的模型。[方法]本文提出了SQLGPT大模型，用以将用户的自然语言查询高效转化为SQL语句。模型首先通过语义相似度计算从数据库中检索出与用户查询相关的表结构信息，然后结合检索到的表结构信息与上下文学习示例，动态生成提示词，引导大语言模型生成 SQL 语句。[结果]在WikiSQL 数据集上的实验结果显示，SQLGPT 逻辑形式准确率 86.5%、执行准确率 92.6%，分别领先当前最优的 BRIDGE 模型 0.4 与 0.8 个百分点，同时支持多轮对话，优势显著。

[局限] SQLGPT 虽在 WikiSQL 数据集表现优异，但依赖单一通用数据集，在表结构命名不规范、复杂多轮对话及行业专属查询场景下鲁棒性与泛化能力未充分验证。[结论]创新性地将语义相似度检索与动态提示词相结合，为自然语言转SQL任务提供了一种高效且准确的解决方案，有望降低非技术背景用户使用数据库的门槛。

Select

融合两阶段大模型与XLNet-BiLSTM的突发事件失真信息识别研究

郭海湘, 邹宇哲, 赵甜甜, 张文凯

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0347

预出版日期: 2026-01-19

摘要 (13) PDF全文 HTML

可视化

【目的】由于突发事件失真信息的误导性、多样性、即时性与动态性，传统模型在语义理解、数据覆盖与知识更新方面存在挑战，大语言模型幻觉问题也制约着其在多学科领域的应用与发展。【方法】本文面向公开数据集构建了突发事件失真信息数据集，基于样本嵌入与链式思考提示策略设计两阶段大模型以限制幻觉发生，结合XLNet-BiLSTM模型以缓解幻觉后果，提出了一种可信任可理解的突发事件失真信息识别框架。【结果】本文框架在突发事件失真信息识别中准确性达到85.02%，领先于框架各单元消融组合的识别结果。【局限】对于本地部署与线上调用大模型的对比讨论较不充分。【结论】本文框架确保了识别结果与生成解释的一致性与可理解性，凸显了在不同类型突发事件中信息识别的可迁移性。

Select

基于超网络的技术融合趋势研究

邱含琪, 陈伟

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0611

预出版日期: 2026-01-19

摘要 (10) PDF全文 HTML

可视化

[目的]提出一种集成技术生命周期分析、多维测度体系与语义增强超网络节点表征的研究框架，旨在系统量化技术融合演化特征，克服文本信息利用不足，全面揭示技术融合趋势。[方法]通过技术生命周期划分发展阶段，基于超网络结构构建时序技术融合超网络；设计涵盖整体、超边与节点三个层次的融合测度体系，系统分析融合演化特征；并提出基于语义增强的超网络节点表征方法（SHNE），以挖掘技术潜在融合关系。[结果]以全固态电池领域为例，研究表明该领域技术融合呈现从材料探索、性能优化到产业应用的阶段性演进，并识别出电池温度管理、高镍正极界面改性等高价值潜在融合方向，为突破技术瓶颈提供了科学参考。[局限]仅基于IPC共现构建超网络，未纳入专利引证等关系，细粒度技术要素挖掘不足。[结论]该框架能够揭示技术领域融合演化特征与潜在融合方向，为技术融合研究提供新视角。

Select

感知、情绪与态度：颠覆性技术扩散中的公众反应机制研究—— 以“萝卜快跑”为例

闫强, 冷基栋, 易兰丽, 姜李丹

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0775

预出版日期: 2026-01-16

摘要 (7) PDF全文 HTML

可视化

[目的] 揭示颠覆性技术传播过程中公众认知与情绪的反应机制，阐释其被社会接受的内在逻辑。[方法] 构建“技术感知-情绪表达-态度立场”三阶段反应模型，以“萝卜快跑”议题为研究案例，选取哔哩哔哩、抖音和小红书三个平台共6万余条用户评论为样本，运用语义分析、情绪识别与立场判别方法，比较分析公众感知、情绪与态度在不同平台的差异特征。[结果] 研究表明，公众的技术感知呈现多元结构，情绪表达具有显著的平台异质性，技术支持与制度忧虑的态度立场存在明显分化。平台通过影响情绪生成与表达方式，在公众态度形成中发挥关键调节作用。[局限] 案例分析主要基于中文社交媒体语境，研究结论在其他语言与文化环境中的适用性仍有待进一步验证。[结论] 本研究论证了颠覆性技术扩散中感知、情绪和态度的联动机制，为公众技术接受模型建构提供新思路，同时为AI驱动的舆情分析与场景决策提供方法参考。

Select

数据蒸馏技术的研究进展与未来展望

赵春玉, 章丹丹, 王希骅, 陈希, 林传文

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0615

预出版日期: 2026-01-16

摘要 (15) PDF全文 HTML

可视化

[目的]系统梳理数据蒸馏技术研究进展，明确核心挑战与未来方向。[文献范围]以“数据蒸馏”、“Dataset Distillation”等为关键词，检索中国知网、Web of Science、谷歌学术等数据库，筛选2021-2025年相关文献88篇展开综述。[方法]系统剖析基于元学习与数据匹配的基础算法及其代表性工作，并结合多领域应用场景分析数据蒸馏的技术特性与实施挑战。[结果]数据蒸馏在计算机视觉、智慧医疗、推荐系统、自然语言处理和图学习领域表现优异，但存在基础理论不完善、合成数据质量待提升、隐私保护需加强等问题。[局限]侧重现有研究梳理与应用分析，对算法原理深层推导及复杂场景适配验证不足。[结论]数据蒸馏是一项具有广泛应用前景的技术，未来需从理论建模、质量优化、技术融合等方面推动数据蒸馏技术实用化。

Select

人智交互中适老化设计的可供性类别及其映射模型研究

吴大伟, 赵宇翔, 汤健, 朱庆华

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0550

预出版日期: 2026-01-16

摘要 (9) PDF全文 HTML

可视化

[目的]：探索人智交互情境下适老化设计可供性的类别及其与老年人需求的映射机理。[方法]：融合需求-可供性-功能特征框架和可供性实现视角，基于元人种志方法归纳可供性类别。随后，在智能手表情境下采用卡片分类实验探索产品功能特征、可供性和需求之间的映射关系，明确可供性的实现过程。[结果]：研究归纳了理解可供性、具身可供性、共情可供性等9类适老化设计的可供性，构建了功能特征-可供性-实现过程-结果映射机制的整合模型。[局限]：研究仅依赖文献数据归纳可供性，对可供性实现过程的揭示具有情境局限性。[结论]：研究丰富了人智交互中适老化设计可供性理论体系，能够为政府和企业开展以人为本的适老化设计提供实践启示。

Select

国际竞争背景下前沿技术领域异常画像构建研究

田雪灿, 李昌旺, 刘晨, 邓泽宇, 毛进

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0863

预出版日期: 2026-01-16

摘要 (4) PDF全文 HTML

可视化

[目的]刻画前沿技术领域的创新活动在国际竞争背景下展现出的异常波动差异，为识别技术体系中的脆弱环节提供参考。[方法]基于专利申请量长时序数据，采用多模型时序建模与异常检测量化技术领域的异常表现，并利用EScore评估其前沿性，通过交叉分析构建前沿技术领域异常画像。[结果]不同模型在不同技术领域的优异性存在差异。整体上，我国技术体系呈现“整体稳态、局部异常”，多数异常为负向且突变常滞后2～3年。前沿性与异常程度总体呈负相关，前沿技术领域更易出现负向波动，但物联网、计算化学等领域展现较高韧性。[局限]创新活动仅以申请量衡量，且前沿性评价依赖单指标，未来可引入更多指标体系。[结论]基于双维度构建前沿技术领域的异常画像，能够有效揭示国际竞争背景下技术创新的脆弱环节与潜在突破方向。

Select

基于动态示例提示的科技专利知识对象抽取技术研究

刘秀敏, 胡懋地, 宋东桓, 孙曦, 邹东, 袁智翔

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0849

预出版日期: 2026-01-16

摘要 (7) PDF全文 HTML

可视化

[目的]为了提升大语言模型在科技专利中抽取知识对象的效果，本文针对少样本学习方法泛化能力不足、示例与目标任务适配性有限等问题，提出了一种基于任务感知的动态示例选择方法。[方法]将示例选择问题形式化为示例引导增益预测任务，基于待抽取语句和候选示例的深度语义交互，构建任务感知的交叉编码器排序模型，通过检索-重排两阶段框架对引导增益较高的示例进行动态筛选。[结果]在基因组学中文专利数据集上实验结果表明，动态示例选择模型在知识对象抽取上的F1值为64.60%，优于基线模型。实验验证了示例引导增益模型在提升动态示例质量的有效性。[局限]本实验基于基因组学中文专利类型文本数据，模型在其他领域及文本类型上的适用性需进一步研究。[结论]通过基于基因组学专利的实验验证，本文提出的任务感知动态示例选择方法能够增强示例适配性，提升大语言模型在科技专利知识对象抽取任务中的性能。

Select

基于多尺度时序感知与自适应权重融合的多模态情感分析方法

钱旦敏, 张铠, 张继海, 刘乘瑜, 马野青

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0497

预出版日期: 2026-01-16

摘要 (7) PDF全文 HTML

可视化

[目的] 在多模态情感分析中，提出多尺度时序感知与自适应权重融合方法。[方法] 本文设计多尺度时序感知模块以捕获多层次时序信息，并提出自适应权重融合架构，集成交叉注意力、模态重要性学习与特征门控，最终通过加权融合完成情感分类。[结果] 在两个基准数据集上的实验表明，本方法性能显著优于基线模型，在CMU-MOSI上准确率与F1值分别提升2.15%和2.26%，在CH-SIMS上分别提升3.14%和2.67%。[局限] 本研究局限性包括对复杂模糊情感表达的判别能力有待提升，以及对模态缺失与噪声干扰的鲁棒性不足。未来将重点优化模型在上述场景下的性能。[结论] 本方法融合时序与跨模态信息，通过自适应权重提升情感识别性能，具应用潜力。

Select

迈向智能信息计量：AI在计量领域的应用

余厚强, 来昕, 张洋

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0350

预出版日期: 2026-01-15

摘要 (8) PDF全文 HTML

可视化

[目的]本文旨在把握智能信息计量发展机遇，揭示智能信息计量的形成过程，为后续学者研究提供方法参考。[文献范围]针对AI在信息计量领域的应用这一主题制定检索式，在Web of Science和CNKI数据库中进行检索，经数据精炼和延伸阅读，最终确定中英文文献共326篇。[方法]通过系统检索和文献精读，本文详细梳理和阐述了最近10年国内外AI技术在信息计量领域识别、预测和分类方面应用的前沿进展。[结果]识别应用方面，AI主要应用于论文识别和细粒度实体识别；在预测应用方面，AI主要应用于论文影响预测、学者影响预测和研究趋势预测；在分类应用方面，AI主要应用于论文学科分类、论文内容分类和情感及动机分类。针对每个方向的AI应用原理和过程均做了细致的归纳和解读。[结论]应用AI技术赋能解决信息计量领域的复杂问题已成为必然趋势，智能信息计量时代即将到来，熟练掌握AI技术的应用已成为信息计量领域专业人才不可或缺的一项关键能力。

Select

基于大语言模型自学习推理增强的仇恨言论检测方法

袁伟康, 张予捷, 包易云, 蒋卓人

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0503

预出版日期: 2026-01-15

摘要 (14) PDF全文 HTML

可视化

[目的]针对社交媒体中隐晦性仇恨言论语义复杂性高、人工标注成本高且传统检测方法可解释性不足的局限性，本文提出一种基于大语言模型自学习推理增强的仇恨言论检测方法——STR4HSD。[方法]首先，基于Qwen-Max模型构建“生成-验证-反思-过滤”的自学习推理增强模块，生成包含推理路径的高质量思维链数据集。其次，通过微调Qwen2.5-7B-Instruct模型，提升其在中文语境下的仇恨言论识别的准确性并增强其决策过程的透明性。最终，融入先验毒性词典引导的领域知识，提升模型对仇恨言论的隐晦表达语义理解能力。[结果]在中文隐晦性表达仇恨言论识别数据集TOXICN和具有伪装扰动的仇恨言论数据集TOXICLOAKCN上的实验表明，本方法取得显著提升：在TOXICN和TOXICLOAKCN上F1分数分别为84.2%和84.7%，相比现有方法F1分数分别提高超过2%和4%。[局限]当前方法主要针对单语种文本场景，尚未解决多模态信息融合与跨语言迁移中的语义对齐问题。[结论] STR4HSD在降低人工标注成本的同时，实现了对隐晦仇恨言论的高精度检测与可解释分析，为社交平台内容治理提供了新的技术路径。

Select

基于群体极化视角的网络暴力检测模型

王荣磊, 马跃峰, 李士建, 梁循, 宋扬

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0659

预出版日期: 2026-01-15

摘要 (4) PDF全文 HTML

可视化

[目的]针对现有网络暴力检测研究中忽视用户行为与社交关系异步演化及群体情感极化联合分析的问题，提出一种融合社交网络结构差分与群体情感极化特征的检测模型。[方法]构建用户行为交互图与社交关注图两种离散时间动态图，利用双向图卷积网络获取双图嵌入并生成特征差分序列；结合情感置信过滤机制得到正负向群体情感极化序列，最终通过改进的时序信号融合模型实现分类检测。[结果]在真实社交媒体数据集上的实验表明，该方法准确率为89.5%，F1值为87.0%，较代表性基线模型提升2%–7%。[局限]本研究仅基于特定社交媒体数据集，未来可引入更多平台数据并在真实环境中验证，评估模型的泛化能力和鲁棒性。[结论]基于群体极化视角的融合社交网络结构差分与群体情感极化模型能够显著提升网络暴力检测效果。

Select

昨日重现：基于计算扎根理论的怀旧视频用户评论分析与影响因素研究

李金昊, 赵宇翔, 赵延柯, 朱庆华

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0827

预出版日期: 2026-01-15

摘要 (6) PDF全文 HTML

可视化

[目的]基于在线评论探索怀旧视频中用户怀旧情绪的特征及其诱因。 [方法]选取哔哩哔哩视频网站中40条怀旧题材的20000余则用户评论进行计算扎根分析，结合Qwen大语言模型和提示词工程进行模式识别、完善和确认。[结果]从视频的用户评论中析取出“人物”“事件”“时间”“地域”“物件”五种主要怀旧元素，提炼出感官处理、推荐机制、社交互动三类引发怀旧的影响因素以及两类社会文化属性。[局限]本研究基于计算扎根方法获得的发现可能由于无监督分类的偏差而忽略用户评论中的洞见，未来研究需进一步结合用户访谈和网络民族志等质性研究方法。[结论]深化了社交媒体怀旧内容创作的核心维度并为怀旧视频的用户体验设计提供参考。

Select

跨国跨市场跨模态信息融合驱动的我国新能源股票市场预测研究

操玮, 张逸丛, 汪文隽

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2024.1025

预出版日期: 2026-01-15

摘要 (4) PDF全文 HTML

可视化

[目的]整合跨国、跨市场及多模态异构信息，解决单一数据源局限，提升我国新能源股指预测精度。[方法]构建深度耦合长短期记忆网络注意力模型（DC-LSTM-Attention-LLM）。利用ChatGPT与结构化零样本提示（Structured Zero-shot Prompting）量化文本模态的投资者情绪；设计LSTM集群并行挖掘跨国、跨市场及多模态数据的深层特征；引入多头注意力机制（Multi-Head Attention）捕捉异构信息间的交互依赖；通过共享层特征融合与ReLU实现新能源股指预测。[结果]中美新能源指数的实证分析表明，DC-LSTM-Attention-LLM模型在三组评价指标上均全面优于九个基准模型。具体而言，该模型相较于LSTM模型实现了平均12.83%的性能提升，验证了其在复杂金融时间序列预测中的优越性。[局限]零样本提示在复杂金融语义中的情绪识别精度受到限制，未来将引入高阶提示工程以增强模型的鲁棒性。[结论] 融合跨国、跨市场及多模态数据的深度建模方法，能有效捕捉复杂市场特征，显著提升我国新能源股票市场的预测精度。

Select

虚假信息群体免疫实现路径模型研究

杨仁彪, 曹高辉

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0769

预出版日期: 2026-01-15

摘要 (5) PDF全文 HTML

可视化

[目的]本文聚焦虚假信息群体免疫的实现路径问题，探究虚假信息传播治理的有效方法。[方法]构建了基于免疫接种与自然感染两种演化机制的RP-MHIM模型。通过引入多维干预变量（接种频次、接种时机、接种强度等），系统模拟与分析不同路径下的免疫效果。[结果]从免疫速度来看，免疫接种在第 t=150轮左右达成群体免疫，而自然感染约为200轮；从路径稳健性来看，免疫接种的抗干扰能力显著高于自然感染。[局限]模型在个体行为、平台机制与网络结构等方面仍存在简化假设，且策略效果未通过真实数据进行实证检验。[结论]免疫接种路径在多个维度上均优于自然感染路径，展现出更高效的干预能力和更快速的免疫形成过程。

Select

融合先验知识与多源异构数据的临床误诊风险预测与特征识别研究

王笑辰, 李世娟, 黄文胜, 赵红梅, 张润彤

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0749

预出版日期: 2026-01-15

摘要 (13) PDF全文 HTML

可视化

[目的]针对临床误诊难以实现前瞻性识别与早期干预的问题，提出一种融合先验知识与多源异构数据的误诊风险预测与特征识别方法，以提升误诊发现的及时性与可操作性。[方法]结合专家经验与临床规则提取先验误诊知识，用于辅助判定误诊事件并进行知识驱动的标签构建；基于电子病历构建混合机器学习模型，并引入可解释学习识别关键风险特征。使用中国国家人口健康数据中心19,256例患者数据完成模型开发，并在北京大学人民医院2,153例独立验证队列上进行外部评估与临床试点。[结果]在独立验证中，模型准确率为92%，AUROC=0.90，AUPRC=0.67；临床试点显示，模型部署后试点约登指数由84.50%提升至92.65%。[局限]本研究的误诊标签依赖规则与专家知识，且试点样本量与周期有限，通用性与稳健性仍待多中心与更长随访验证。[结论]本研究在误诊风险预测与关键特征识别方面取得较好效果，能够在真实诊疗中提升早期干预能力与决策支持价值，为构建临床误诊智能防控体系提供了一条可行技术路径。

Select

基于大模型和Netlogo的认知主体智能体交互行为仿真研究

丁晟春, 公婧泽, 秦天允

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0848

预出版日期: 2025-12-31

摘要 (22) PDF全文 HTML

可视化

[目的]针对认知战场景下认知主体类型多样、交互行为复杂且难以精准复现的问题，引入大语言模型技术，构建基于真实数据的智能体建模与仿真方法，为情报策略定向投送提供实验支撑。[方法]基于阿赫利医院爆炸事件数据，采用深度学习方法提取九类典型认知主体的属性分布与行为概率特征，借助大语言模型生成10,000个具有个体异质性的智能体实例，并集成至NetLogo平台开展交互行为仿真，从属性分布一致性、行为模式差异性维度校验模型有效性。[结果]该模型准确刻画了各阶层认知主体影响力差异，仿真中涌现出符合正态分布的差异化交互，有效克服传统仿真规则僵化、样本代表性不足的缺陷。[局限]模型当前侧重行为概率的拟合复现，尚未实现仿真中基于实时语义交互的动态认知演化，对深层次语义对抗效果的评估能力不足。[结论]本研究构建的认知主体智能体模型可有效复现信息接收后的行为反应，验证了LLM生成智能体与NetLogo仿真相结合的技术路线的可行性，为认知空间作战行动提供可量化、可复现的实验支撑，具备重要战略价值。

Select

FAIR×FAIR：AI时代科学数据的共享与利用

沈志宏, 朱小杰, 朱国亮

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0956

预出版日期: 2025-12-31

摘要 (17) PDF全文 HTML

可视化

[目的]本文围绕AI场景下科学数据的共享与利用问题，针对现有FAIR原则不足以指导科学数据满足AI就绪的现状，构建面向AI就绪的科学数据共享与利用原则框架。[方法]通过系统梳理传统机器学习、大模型预训练、大模型微调、检索增强生成及智能体等五类典型AI任务的数据需求，在传统FAIR“四可”维度的基础上，提出面向AI就绪（即For AI Ready）的科学数据共享与利用原则框架FAIR×FAIR，并进而提出与框架相适应的层次化技术栈。[结果]FAIR×FAIR框架明确了13项科学数据满足AI就绪的技术要求，为弥合AI任务与科学数据之间的语义鸿沟提供了系统化方案。[局限]本研究提出的原则框架其实施效果仍需通过后续领域应用案例进一步验证。[结论]FAIR×FAIR框架为AI时代的科学数据共享与高效利用提供了理论依据和实践路径，对推动数据驱动型科研范式的演进具有重要意义。

Select

基于网络结构特性的科学知识图谱阈值设置方法

陈格非, 刘清

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0600

预出版日期: 2025-12-31

摘要 (10) PDF全文 HTML

可视化

[目的] 阈值设置是科学知识图谱的重要环节，本文旨在提出一种客观、可解释性更强的阈值设置方法，以提高文献数据挖掘的质量和效率。[方法] 通过引入节点度分布、同配性和巨分支规模占比等三种网络结构特性，揭示阈值设置和科学知识图谱性能间的关系。在此基础上提出阈值设置方法，并通过实验验证。[结果] 在实验数据集中，本文方法生成图谱的重要节点、聚类和时序特征提取的平均准确率相比经验方法提升10%，平均完整度提升7%。[局限] 需要在更多领域验证方法有效性。[结论] 在文献网络中，阈值设置与节点度分布、同配性和巨分支规模占比之间存在普适性关系。依据网络结构特性设置阈值能够提升科学知识图谱数据挖掘的质量。

Select

融合深度学习与大语言模型的联合用药知识发现研究

吕婷钰, 李晓瑛, 邓盼盼, 李军莲

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0719

预出版日期: 2025-12-31

摘要 (7) PDF全文 HTML

可视化

[目的] 为解决非结构化文本中联合用药信息的抽取挖掘与形式化表示，提出一种融合深度学习与大语言模型的联合用药知识发现与自动评估方法。[方法] 基于文献知识发现（Literature based discovery, LBD）理论构建多层级联合用药知识发现框架，融合优化深度学习模型以完成药物和疾病实体识别、药物-疾病治疗关系和药物-药物组合应用关系提取，结合目标信息特征自动挖掘大规模文本数据中的联合用药知识，并利用定制化设计的“角色+内容”少样本提示词引导大语言模型完成前述结果的评估验证；多层级的双重策略不仅有助于提高联合用药知识发现结果的准确性和可靠性，而且避免了耗时费力的人工参与。[结果] 在自建的PubMed文献数据集上，本联合用药知识发现方法获得94.29%的准确率，经过gpt-4.1大语言模型自动评估后的结果与人工标注一致率达到95.71%。[局限] 仅收集公开发表的科技文献开展了定量分析，缺少电子病历、药物不良反应报告等多类型数据的实验验证。[结论]融合深度学习与大语言模型的多层级架构，能够高效识别生物医学文献中的联合用药知识，满足下游任务对于大规模、结构化数据的高精需求，为精准医学中药物组合决策等应用提供了技术路径。

Select

融合法理约束与知识驱动的刑期预测方法研究

王浩宇, 周裕林, 黄瑞章, 秦永彬

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0743

预出版日期: 2025-12-31

摘要 (12) PDF全文 HTML

可视化

[目的]针对现有刑期预测模型在多被告人案件中法律知识整合不足、判决合规性差的问题，提出一种融合法律约束与知识驱动的刑期预测框架（KASP）。[方法]提出KASP框架，利用大语言模型拆解案件事实；解析罪名与法条，提取基础刑期区间作为结构化法律先验；通过一致性融合机制将先验融入轻量级预测模型训练过程，实现知识驱动的协同优化。[结果]实验结果表明，在CMDL-small数据集上，KASP相较于最优基线DeepSeek-R1-14B在准确率和F1值上分别提升了5.44%和4.18%，且在多被告复杂场景下表现更稳定。[局限]本文实验主要聚焦于从法理约束和裁量因子中提取基础刑期区间的知识建模，未涉及多罪并罚、跨法条竞合等更复杂的量刑规则处理。[结论]通过引入结构化法律先验知识，提升刑期预测模型在复杂案件中的性能与法律合规性。

Select

基于跨视图对比学习的AI跨领域知识组合预测研究——以医学信息学为例

孙晓玲, 沈桐

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0280

预出版日期: 2025-12-31

摘要 (5) PDF全文 HTML

可视化

[目的] 从知识元细粒度层面探索AI跨领域知识组合特征，融合多维特征提升组合预测效果。[方法] 提出一种基于图神经网络的跨视图对比学习模型GCN_Contrast，通过图对比学习和基于注意力机制的特征融合方法将多维特征有效结合，对潜在的跨领域知识组合进行预测。[结果] 以医学信息学领域为例，通过对比实验发现GCN_Contrast比传统GCN模型在p@500、p@100以及p@50指标中准确率分别提升了8.4%、16%以及20%，AUC值提高了3%。[局限] 目前知识元的特征选择较有限，知识元之间的关系还可以从引文网络角度进行挖掘。[结论] GCN_Contrast模型可以更精确地预测出AI跨领域研究中的知识元组合, 为推动AI与基础和前沿科学研究的深度融合提供决策依据。

Select

面向数据智能的 AI-native：基于国际标准化视角的概念体系与演进框架构建

张可维, 尹静, 温福铨, 安小米

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0810

预出版日期: 2025-12-31

摘要 (7) PDF全文 HTML

可视化

[目的] 面对AI-native领域技术快速迭代和应用场景多元化的带来的认知挑战，本文旨在通过国际标准化视角构建一个概念体系与成熟度演进框架，为理解 AI-native 的发展、评估其作为数据智能主体的行为质量及制定差异化监管策略提供理论依据。[方法] 采用文本内容分析法，对ITU-T SG13发布的34份国际标准文件进行分析。依据ISO 704:2022原则，构建基于“活动—结果”特征映射的成熟度演进框架；并选取协同智能体与垂直行业典型用例，分析其数据角色与行为评价模式。[结果] 研究识别了包含五类特征对象和两类特征的概念体系。建立了从“AI 辅助级”到“完全 AI 原生级”的三级成熟度演进框架。用例分析揭示了针对不同风险场景需匹配人机协同或AI 原生监管等差异化治理策略。[局限] 本文局限于标准化视角下的概念体系和成熟度演进框架构建。[结论] 本文构建的概念体系为理解 AI-native 的动态演进提供了标准化共识基础。研究表明，治理重心宜从性能效率转向语义准确性和伦理质量评价。建议采用分级监管策略，针对不同成熟度与风险等级的场景，采取差异化的监管手段。

Select

多尺度轻量级注意力抑郁症识别网络

张競元, 杨磊, 刘寨义

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0773

预出版日期: 2025-12-30

摘要 (11) PDF全文 HTML

可视化

[目的] 针对基于Transformer的模型计算复杂度高、多尺度特征提取能力有限，难以兼顾局部细节与全局上下文的问题，提出了一种多尺度轻量级注意力抑郁症识别网络(MLA-Net)。[方法] MLA-Net采用轻量级Transformer架构，结合全局双池化注意力机制提取视频特征以保留全局信息，再通过注意力机制建模时空长距离依赖，结合多尺度特征提取捕捉不同尺度信息，最后用交叉融合策略强化特征表达。[结果] 在真实世界抑郁症数据集上的实验结果显示，本方法平均绝对误差为4.90，均方根误差为6.88，优于现有方法，充分证明了其有效性与合理性。[局限] 目前的研究仅针对面部表情这一单一模态进行分析，没有结合语音、文本以及生理信号等模态。[结论] MLA-Net通过全局双池化注意力、多尺度特征提取和交叉特征融合的协同作用显著提升了模型性能。

Select

MIRAGE:语义引导多模态融合的AIGC图像溯源模型

王楠, 王娟, 刘耀文, 潘杰, 夏一雪, 冼婷玉

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0742

预出版日期: 2025-12-30

摘要 (10) PDF全文 HTML

可视化

[目的]针对现有AIGC图像溯源方法依赖单一视觉伪影且抗干扰鲁棒性不足的问题，设计了一种语义引导的多模态溯源方式。[方法]设计一种语义引导的主动式多模态融合方式。为解决多模态特征语义鸿沟问题，设计了从量化指纹到自然语言的语义映射机制。在此基础上，通过调整交叉注意力层的交互逻辑，以语义文本为主动查询，引导模型在深层特征空间中动态聚焦于关键伪影证据。[结果]在WILD和DRAGON数据集上F1分数分别达98.4%和69.6%。定量分析表明，相较于单模态视觉基线，该模型F1分数分别提升了5.9%和11.3%；相较于简单特征拼接基线，在复杂场景下的F1分数分别提升了3.1%和6.4%。[局限]规则化语义生成限制了自适应推理能力；对技术架构高度相似的同源模型区分度仍有待提升。[结论]语义引导的主动式多模态融合策略能有效整合正交证据，是提升复杂场景下AIGC溯源鲁棒性的有效路径。

Select

动态网络视角下融合多模态特征的企业技术创新合作伙伴识别研究

杜先进, 许彧祥, 付红

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0517

预出版日期: 2025-12-26

摘要 (12) PDF全文 HTML

可视化

[目的]为提高企业技术创新合作伙伴识别的准确性和时效性，提出融合多模态特征动态图卷积网络的链路预测方法。[方法]提出基于注意力机制的专利合作网络节点拓扑、领域与语义特征融合模型，设计GCN-LSTM架构与滑动时间窗口策略捕捉网络动态演化规律，开展链路预测识别技术创新合作伙伴。[结果]基于我国新能源汽车2015-2024年专利数据集开展实证研究，本文方法各项指标均显著优于基线模型。其中AUC较次优模型EvolveGCN提升了5.0个百分点，达到0.858；F1值较次优模型DySAT提升了3.5个百分点，达到0.807。[局限]未能充分挖掘专利的引用关系、专利价值等特征；未结合企业的研发投入、市场表现等非专利的多源异构信息。[结论]本文方法有效捕捉专利合作网络的动态演化规律，并综合利用专利的多模态特征，能够为企业进行合作创新提供更精准、前瞻性的数据驱动决策支持。

Select

基于预解析与图谱检索增强的慢病知识服务研究

马亚坤, 孙颖, 胡广伟, 刘云

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0356

预出版日期: 2025-12-26

摘要 (9) PDF全文 HTML

可视化

[目的] 面向个体化需求识别不足与居家慢病管理适配性有限的问题，探索构建融合多源健康数据与领域知识的慢病知识服务框架。[方法] 首先，结合用户生理数据，实现用户健康状态的动态评估与预警；其次，设计轻量化的用户需求预解析机制，通过对用户输入进行语义分析与结构化重构，结合健康标签与生理数据，提升大语言模型对个体化需求的理解与适配能力；最后，借助慢病知识库与图谱检索增强技术，部署面向特定疾病场景的领域模型，以提升模型的垂直化适配能力。[结果] 以糖尿病为例的实验表明，模型在诊断相关性、术语命中率及规范性评分的各项指标上均取得了更高的量化得分，为促进居家社区主动健康服务的智能化与精准化提供有益参考。[局限] 当前知识服务的内容主要是文本，未来考虑多模态数据以增强知识服务的全面性。[结论] 融合预解析与图谱检索增强的慢病知识服务框架能有效提升知识服务的准确性与规范性，为智能慢病管理提供了可扩展的技术路径。

Select

基于嵌入增强和实体-关系感知的实体对齐模型

胡鑫欣, 邱芹军, 黄泽华, 鲁谢春, 崔倩娜, 马凯

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2024.1222

预出版日期: 2025-12-26

摘要 (8) PDF全文 HTML

可视化

[目的]针对现有的实体对齐方法依旧存在对知识图谱的结构信息和语义信息利用不充分而导致实体对齐效果不佳的问题，提出一种基于嵌入增强和实体-关系感知的实体对齐模型MuEmbedNet。[方法] MuEmbedNet模型通过为实体生成不同的嵌入表示，并利用注意力机制和双层改进的GCN网络实现实体的嵌入增强，进一步利用实体与关系的相互映射将图结构数据的关系特征融合到实体特征中以获取增强的实体嵌入表示。[结果]结果表明，MuEmbedNet模型在三个公开跨语言数据集上的平均Hits@1值、Hits@10值和MRR值分别达到89.3%、97.2%和92.1%，高于所有基线模型。相比于基线模型中平均最优表现，Hits@1值、Hits@10值和MRR分别提高了6.1%、0.5%和5%。[局限]模型在两个相同语种的实体对齐任务中表现较好，而在不同语言体系的实体对齐任务中存在局限性。[结论]通过嵌入增强和实体-关系感知网络能够充分学习实体的语义信息特征和结构信息，进而有效提升实体对齐任务的效果。

Select

面向大语言模型的价值观对齐评测研究

张嘉程, 刘哲理, 肖光文, 聂力海, 王永昌, 史良, 金美宏

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0850

预出版日期: 2025-12-26

摘要 (21) PDF全文 HTML

可视化

[目的]针对大语言模型价值观对齐评测体系碎片化、中国特色价值覆盖不足、深度评测数据稀缺及评测方法滞后等问题，构建面向大语言模型的价值观对齐评测方法与技术。[方法]提出价值规则、评测数据、智能技术三位一体的融合方法体系。在此框架下，设计“能力—任务—指标”三维评测体系，进行数据采集、增广与标注，构建深度评测数据集。最终结合预训练模型、指令微调与专家反馈，训练出价值观评测模型。[结果]构建的评测模型准确率为98.57%，实现了对大语言模型价值观对齐水平的自动化评测。实证结果表明，国产模型总体对齐度高于国外模型，但仍普遍存在红色文化语料不足、事实性与幻觉性虚假信息、意识形态淡化、过度审查及动态适应性弱等问题。[局限]研究主要面向文本型大语言模型，对多模态模型的适用性不足；同时，评测结果以高、中、低呈现，可解释性有待提升。[结论]本研究有助于健全具有中国特色的价值观对齐治理体系，保障大语言模型在安全、可信和可控的框架内健康发展，同时也为推动我国主流价值观在经济发展和社会治理中的有效落实提供技术支撑。

Select

基于关系语义的知识图谱补全研究综述

薛增灿, 张晓冉, 陈佳锐, 刘海, 谭俊

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0582

预出版日期: 2025-12-26

摘要 (17) PDF全文 HTML

可视化

[目的] 总结国内外知识图谱补全技术的研究现状，为促进知识图谱补全技术深入研究提供理论基础。[文献范围] 以“Knowledge Graph Completion”“Link Prediction”“知识图谱补全”“链接预测”等为关键词，在Web of Science、Google Scholar和中国知网等权威数据库中检索，筛选出代表性文献130篇。[方法] 基于文献调研与归纳总结方法，分别从推荐模型、结果评价、未来展望三方面对相关研究进行综述与评价。[结果] 基于关系语义的知识图谱补全模型可以划分为面向复杂关系语义建模、面向连接关系语义建模和面向隐含、异质、稀疏关系语义建模的知识图谱补全模型。针对MRR指标，面向稀疏关系语义建模的SimKGC模型在WN18RR数据集上提高了4.9%（0.666 vs 0.617），面向连接关系语义建模的DaBR模型在FB15k-237数据集上提高了3.4%（0.510 vs 0.476）。[局限] 部分新兴技术缺乏大规模基准试验，由于研究领域广泛，文献众多，未能涵盖所有相关研究。[结论] 相比传统方法，前沿技术具有更好的图谱补全性能，但是模型可解释性、可扩展性不足，多模态和时序数据融合困难，大语言模型存在幻觉风险，这也是未来研究要解决的问题。

Select

解剖信息增强的医学视觉定位方法

陈先来, 许安明, 李陈鹏, 朱泽林

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0557

预出版日期: 2025-12-26

摘要 (9) PDF全文 HTML

可视化

【目的】解决医学影像报告中临床描述和医学影像中病灶对象之间的语义对齐问题，从而提高两者之间的对应关联性。【方法】提出了一种基于解剖信息增强的医学视觉定位方法（AEMVG），通过解剖先验知识指导模块（APKG）和正常特征增强病灶定位模块（NELG）来提高医学视觉定位能力。APKG为训练样本生成引导标签，使模型能够更准确地理解解剖结构信息，从而在全局范围内缩小定位搜索空间，降低全局定位不确定性。NELG将正常解剖特征作为负样本来提升模型识别病灶的能力，缓解局部定位不确定性。【结果】MS-CXR数据集上的实验显示，AEMVG的ACC和mIoU分别为0.7246和0.6079，相对于基线模型分别提高了3.7%和4.1%，且可视化分析显示其解剖定位与病灶识别更符合临床诊断逻辑思维。【局限】本方法仅在X光影像上进行了验证，对于CT、MRI等类型的医学影像还有待测试。【结论】AEMVG可有效增强医学视觉定位模型在解剖认知和病灶区分方面的能力，提高临床描述与病灶对象之间的关联性能。

Select

基于序数感知层次化融合网络的恶性模因检测方法

彭明阳, 高岩, 赖宇乔

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0780

预出版日期: 2025-12-26

摘要 (10) PDF全文 HTML

可视化

【目的】针对恶性模因检测中标准分类损失忽略类别间有害程度递进关系、对称惩罚机制与内容审核实际需求相悖的问题，提出序数感知层次化融合网络（OAFHN）。【方法】首先设计序数感知与误报惩罚损失函数（OPP-Loss），将分类问题重构为序数回归并对误报施加非对称惩罚；其次构建层次化多路径融合网络，利用视觉语言模型生成语义释义作为知识输入，通过粗粒度融合、语义调制注意力和低秩双线性池化实现多粒度特征建模。【结果】在Harm-C和Harm-P数据集上，OAFHN的F1分数达到83.46%和88.39%，较现有方法分别提升0.66和0.13个百分点。消融实验验证了OPP-Loss和层次化融合架构的有效性，其中OPP-Loss贡献最为显著，F1分数提升超过8个百分点。【局限】误报惩罚因子需人工调优，序数映射为静态设定，未充分刻画“部分有害”类别的内部异质性。【结论】从优化目标层面直面任务挑战，结合多粒度特征融合与外部知识注入，可有效提升恶性模因检测的鲁棒性与准确性。

Select

基于有监督微调和强化学习的可解释方面级情感分析研究

邓君, 叶东宇, 邢艺丹, 张琪

数据分析与知识发现. https://doi.org/10.11925/infotech.2096-3467.2025.0558

预出版日期: 2025-12-26

摘要 (10) PDF全文 HTML

可视化

[目的]为提高方面级情感分析(Aspect-Based Sentiment Analysis, ABSA)模型的可解释性和隐性情感分析能力，提出一种基于有监督微调和强化学习的可解释ABSA方法。[方法]首先，基于DeepSeek R1模型构建了推理数据集；其次，对LLMs进行有监督微调以提高模型的格式化输出和情感分析能力；最后，使用强化学习优化模型推理过程并提高ABSA准确率。[结果]所提方法在公共数据集SemEval 2014上F1值较SOTA模型提高1.26%，隐性情感分类准确率提高3.18%。[局限]仅对方面级情感分类任务进行了实验，尚未扩展到更为复杂的情感信息抽取等任务。[讨论]强化学习能有效优化模型的推理解释过程，且提高了模型的隐性情感分析能力；合理的复合奖励函数对于模型优化至关重要；所提方法在中英文数据集上具有良好稳健性。

最新录用

选择文件类型/文献管理软件名称

选择包含的内容

模态框（Modal）标题

检索词推荐：

最新录用

选择文件类型/文献管理软件名称

选择包含的内容