期刊首页 在线期刊 最新录用

最新录用


说明:最新录用文章, 内容和格式将与印刷版一致(除了页码), 您可以通过doi直接引用。

Please wait a minute...
  • 全选
    |
  • 向姝璇, 毛进, 李纲
    预出版日期: 2025-07-03

    [目的]就现有方法替代指标选取、特征体系构建、模型结构设计上对专利商业化潜力与专利策略关联利用不足的问题提出一个新的专利商业化潜力预测方法。[方法]将专利实际维持时间是否超过设定阈值作为判断商业化潜力的标准,提出由特征处理模块与多任务并行预测模块构成的LSTM+MTNN模型。特征处理模块拼接数值特征与Bert+SimCSE及LSTM模型生成的文本连续特征形成多任务并行预测模块的输入。多任务并行(MT)预测模块基于专利商业化潜力与法律事件的关联构建,包括人工神经网络(NN)实现的共性特征捕捉层、法律事件预测层与商业化潜力预测层,输出为辅助任务法律事件预测与主任务商业化潜力预测的结果。[结果]专利策略视角下专利数值特征体系具备合理性;LSTM+MTNN模型在专利商业化潜力预测上较对比模型表现更佳,尤其在较小数据集上优势明显。[局限]专利文本信息利用方式有待深入研究;复杂技术环境中的专利商业化潜力的表示与预测方法有待探索。[结论]预测模型输入在专利数值特征基础上增加权利要求文本特征使其得到了有效充实;预测模型结构上增加法律事件预测的辅助模块实现了任务间信息共享;二者对专利商业化潜力预测起“减熵”作用,能够帮助模型作出判断。

  • 马捷, 孙文晶, 郝志远
    预出版日期: 2025-07-03

    [目的]本研究旨在构建具有可解释性的高质量疾病预测模型,通过识别影响疾病形成的关键诱因,并进一步分析诱因对于疾病的作用方式,从而为辅助诊断和精准医疗赋能助力。[方法]以肥胖症为研究对象,首先,利用随机森林模型在疾病数据的多维特征中筛选出最具代表性的特征子集;其次,通过构建增强型麻雀搜索算法实现支持向量机核参数与惩罚系数的自适应获取;然后,同步应用优化后的支持向量机模型对数据样本进行预测分析,并将该模型与8种基线方法展开对比;最后,借助SHAP解释框架对疾病诱因与疾病形成的作用关系进行量化分析。[结果]本文所提模型的预测准确率能达到85.5%,其获得的准确率、特异度与马修斯相关系数三种指标值均高于其他8组被试模型,证明了该模型的有效性,此外,家族史、蔬菜摄入频率、每日正餐数量、身高、性别、交通工具使用情况与高热量食物摄入情况是影响肥胖症形成的关键因素。[局限]针对肥胖症展开的实证研究无法有效验证模型的泛化性;未对特征变量之间的交互作用进行分析。[结论]本文所提模型不仅具有较高的预测准确率,还能够分析不同诱因对疾病形成的影响程度和作用方向,所得结论可为医疗机构提供决策支持。

  • 张博睿, 杨宁, 张鑫, 文奕
    预出版日期: 2025-07-03

    [目的]总结国内外科学数据推荐的研究现状,为促进科学数据共享研究提供理论基础。[文献范围]在CNKI、WOS、Google Scholar中使用“科学数据推荐”、“科学数据集推荐”、“Scientific data recommendation”、“Scientific dataset recommendation”等关键词进行检索,并结合主题筛选和追溯法,筛选出71篇代表性文献。[方法]基于文献调研与归纳总结方法,分别从推荐模型、结果评价、未来展望三方面对相关研究进行综述与评述。

    [结果]科学数据推荐对于促进数据共享至关重要。已有研究可分为基于内容过滤的、基于协同过滤的、基于图模型的与基于混合过滤的科学数据推荐。然而,研究中缺乏对科学数据多源异构信息的综合利用,以及用户隐私保护的相关研究。此外,在可解释性研究和推荐结果的评测方面也存在不足。[局限]本文仅评述主流研究,由于科学数据类型的多样性,并未将所有研究逐一列出。[结论]融合多源异构信息的推荐、推荐可解释性、用户隐私保护以及推荐效果评测四个方面将是科学数据推荐领域的未来研究方向。

  • 倪渊, 李翔宇, 张健, 董飞星
    预出版日期: 2025-07-03

    [目的]构建可解释集成学习模型,为预测电影IP衍生品的开发效果提供新的决策方式。[方法]基于价值链理论解析电影IP衍生品开发过程,构建预测指标体系。基于KLLB模型对影响因素进行提取筛选、构建预测标签。提出基于AWStacking的开发效果预测模型。 [结果]以XGBoost、CatBoost、RF为基学习器,LR为元学习器的AWStacking算法预测效果最好,宏平均精确率为0.8699,宏平均召回率0.7889,宏平均F1值为0.8216。[局限]由于受目前数据可得性的限制,关于电影IP衍生品开发效果衡量指标可以进一步优化,提升指标测量的细粒度。[结论]所构建的模型为电影IP衍生品开发效果的预测提供了依据,有助于推动电影IP衍生品市场的健康发展。

  • 李广, 吴新年, 宁宝英
    预出版日期: 2025-07-03

    [目的] 设计基于多源数据间主题时序扩散网络模型,进行动态计量数据源权重的研究前沿探测。[方法] 通过分析前沿主题的时间、扩散和网络特征,提出基于主题时序扩散网络的研究前沿探测方法体系、指标体系和立体判别坐标图,最后在人工智能领域进行实证分析。[结果] 动态计量出多源数据权重(战略规划0.301、科技报告0.234、基金项目0.124、专利文献0.122、会议论文0.113、期刊论文0.105),探测出8个新兴型、3个生长型研究前沿主题。[局限]不同学科领域的发展演化周期存在差别,需要进行更多学科领域的效果验证。[结论]本文提出的基于多源数据间主题时序扩散网络的方法,能够有效地识别领域研究前沿。

  • 段永康, 赵广宇, 耿骞, 曹涵维, 靳健
    预出版日期: 2025-07-03

    [目的]现有政策分析方法依赖大量人工标注和对齐比较,导致效率低下且易出错。本研究旨在通过构建结构化政策知识库,提升政策信息检索效率,实现政策智能分析与对比,为政策制定提供精准决策支持。[方法]本研究以惠企政策为例,提出了一种基于大语言模型的框架,用于高效比较相关政策。该框架包括以下步骤:1)知识库构建;2)检索与存储;3)答案生成。[结果]通过对国家、北京、上海、深圳四地惠企政策数据集验证,本文提出的框架自动整合多条政策,并可以分析政策语义实现数据库的构建,并帮助完成政策匹配与分析。本研究的Chroma-RAG模型展示出显著优势,在Hit@1指标达到60%、Hit@3指标达到了76%,MRR指标达到了71.13%。在检索方法对比中,本研究模型表现优于传统的Tf-idf、Word2Vec、USE、BERT、SBERT、DPR、SimCSE等模型,凸显了本文方法的优越性。通过在Hit@1、Hit@3和MRR等评估指标上进行对比实验,本研究提出的框架与检索方法具有显著优势。[局限]研究主要基于截面数据,无法全面反映政策实施过程中的动态变化,限制了对政策效果的深入分析。[结论]基于大语言模型的知识库构建与政策比较能够有效提升政策文本的智能化分析与比较效果,特别是在政策知识库的构建和政策比较支持方面为政策制定者提供了显著的决策支持效果。

  • 李婕, 张智雄
    预出版日期: 2025-07-03

    [目的]深度综合关联挖掘图像聚类方法DCCM局限于基于样本语义特征进行聚类,无法充分利用类簇结构特征中蕴含的具有高判别性的类间结构关系,制约了DCCM聚类性能的进一步提升。[方法]本文提出融合类簇结构特征的改进模型Improved-DCCM。首先,以DCCM作为基础聚类模型,引入基于高斯分布的文本数据增强策略,继承DCCM的样本语义特征挖掘能力。在此基础上,通过样本变量与类簇变量之间的互信息损失和DCCM原始损失的加权和,联合学习样本语义特征和类簇结构特征。[结果]在公开标准数据集和科技论文摘要数据集上的实验验证了改进IDCCM模型的优越性。在公开数据集20NewsGroups和Reuters-60k数据集上改进模型的聚类准确率相较基准模型分别提升了9.8%和7.32%。[局限]需要预先指定类簇数量,然而在实际应用中往往很难确定原始数据的最优类簇数量,应当根据具体数据情况适当调整。[结论]IDCCM模型能够挖掘利用类簇结构特征,提升了DCCM模型聚类效果。

  • 周洁, 王东毅, 代沁泉, 夏苏迪
    预出版日期: 2025-07-03

    [目的]本研究旨在探索普适的生成式AI有效提示词策略,以提升用户的交互技能和优化使用体验。[方法]采用Q方法,邀请用户根据其在通用场景、跨任务及跨模型的生成式AI使用经验,对不同提示词策略的有效性进行排序,从而识别出具有普适性的有效提示词策略类型。[结果]研究发现,最有效的提示词策略包括明确问题、明确目标和提供背景信息。普适性有效提示词策略可分为三类:明确需求与精确指引型、清晰解释与逻辑排序型、拆解任务与多样化表达型。[局限]数据来源于中国用户,未来研究可扩展至更多文化背景以验证结果的广泛适用性;本文侧重于整体情境分析,未来可进一步探讨提示词策略在具体场景、任务类型和模型条件下的差异性。[结论]本文为优化生成式AI和提升用户交互技能提供了有价值的参考。

  • 徐梦瑶, 孙斌, 江涛, 崔家豪
    预出版日期: 2025-07-03

    [目的]针对谣言抑制中对节点位置与社区重叠特性考虑不足的问题,提出一种谣言抑制框架RSM-OC。[方法]该框架创新地提出使用信任中心值来精准识别关键节点,结合重叠节点构成候选种子集,最后利用遗传算法优化正种子节点集,并采用单向状态转换的线性阈值模型模拟谣言与真相的博弈。[结果]在四个真实数据集上的实验显示,RSM-OC方法相较于基线算法的谣言抑制率平均提升23.3%,真相传播范围平均扩大两倍,特别在稠密和中等规模网络中表现尤为优异。[局限]RSM-OC方法在大规模网络中的计算成本较高,可能存在性能瓶颈。[结论]RSM-OC方法在抑制谣言和扩大真相传播范围两方面均具有良好的有效性。

  • 布文茹, 王昊, 周抒, 石斌, 赵萌
    预出版日期: 2025-07-03

    [目的]通过提出一种基于叙事型文本重构的多维人格计算与分析方案,探索并验证数字技术在提升文学作品人物分析深度和广度上的潜力。[方法]研究过程包括文本重构、人格量化、模型构建和人格分析。首先通过机器翻译、指代消解等技术抽取文本信息;其次利用大语言模型获取人物人格描述,构建人格数据集;接着采用深度学习框架LBA构建人格检测模型;最后,完成多维人格的数值计算与分析。[结果]本文提出的自动化抽取方案在文本重构中,主体人物抽取效果显示准确率均超过89%,f1值均超过74%,文本内容拆解效果显示Rouge-L在各类文本的均值达到73.01%。构建的人格检测模型MPNDM的MSE指标比两个对比模型分别降低29.08%、8.72%。通过对《三国演义》全人物及代表性人物的人格分析,揭示了人物群体与个体在人格上的差异与变化。[局限]关于人物人格测度的理论与模型较为多样化,引入不同的理论模型可能得到不同的效果。[结论]本研究不仅验证了方案的有效性,也为数字人文在文学领域的应用开辟了新路径。

  • 赵一鸣, 刘顺生, 吕璐成
    预出版日期: 2025-07-02

    [目的]通过分析关键技术领域下的专利数据,对具备高颠覆性潜力的技术专利进行早期识别。[方法]基于技术生命周期理论搭建颠覆性技术早期识别指标体系,以智慧芽专利数据库中量子计算领域的专利数据作为研究对象,搭建集成学习模型对该领域具有高颠覆性潜力的技术专利进行早期识别。[结果]通过BERTopic主题建模框架发现五个相关颠覆性研究方向:量子加密技术、量子处理器、超导量子比特、半导体技术与量子神经网络,验证了本文方法的有效性与可行性。[局限]实证分析仅围绕量子计算领域展开,未能全面涉及不同的关键技术领域;框架构建与指标提取仅依赖专利数据,可拓展支撑数据的来源种类。[结论]本研究有助于早期识别出高颠覆性潜力的技术专利,进而分析主要的颠覆性研究方向,为国家重大科技战略的制定实行提供研判依据。

  • 冯岭, 潘云涛
    预出版日期: 2025-07-02

    [目的]识别数据集中的学科交叉文献,以准确地把握学科交叉的前沿动态。[方法]提出了一种基于图神经网络的学科交叉文献识别方法,通过选取的代表性文献,训练基于图神经网络的多标签分类模型,以用于学科交叉文献的识别。[结果]在仅标注了5%的文献作为代表性文献的条件下,所提出方法在整个数据集上的学科交叉文献识别的AUC值最高达到了0.843。[局限]对于多学科交叉文献的识别问题,还需要对提出的方法进行改进;在较大学科领域粒度和大规模数据集上的学科交叉文献识别效果还有待进一步验证。[结论]提出的方法不仅具有较好的学科交叉文献识别效果,还有效地解决了有标注的训练数据集稀缺的难题。

  • 曹银妮, 韩虎, 黄明伟, 刘金德
    预出版日期: 2025-07-02

    [目的]为减小跨模态语义鸿沟,并增强与方面相关的图像特征提取,本文从全局与局部视角获取细粒度的跨模态情感表达,提出一种多视角融合表示的多模态方面级情感分析模型。[方法]首先,从全局视角出发对文本与图像描述进行联合编码,并结合多头自注意力机制捕捉跨模态全局语义特征。其次,从局部视角出发构建两个图结构挖掘文本和图像的细粒度情感信息。通过文本图结构引入语法依赖图增强文本语法特征提取。在融合图结构中,采用空洞卷积扩大感受野提取图像块中的关键信息并加强跨块的特征关联,利用多头交叉注意力指导模型关注与方面词相关的图像特征。最后,结合全局和局部细粒度情感信息进行方面级情感分析。[结果]本文模型在Twitter-2015和Twitter-2017数据集上的准确率和F1值均高于基线模型。与次优模型相比,在Twitter-2015数据集上,Acc和F1值分别提高了0.44%和1.51%。在Twitter-2017数据集上,Acc和F1值分别提高了0.54%和0.72%。[局限]未能在更多的数据集上验证本文模型的泛化性。[结论]本文所提模型能够有效减少模态间的语义差距,并充分提取与方面词相关的图像特征,提升了情感分类的效果。

  • 张冬瑜, 庄沐霖, 靳森源, 刘馨月
    预出版日期: 2025-07-02

    [目的] 针对目前大量心理疾病检测研究未能充分考虑到隐喻性信息在疾病识别过程中的关键作用,提出一种基于隐喻信息和指令调优的心理疾病监测方法。[方法] 该方法的核心在于通过隐喻识别技术引入隐喻信息,这包括对隐喻的使用频率和隐喻中的实体间关联性进行分析。此外,利用大语言模型捕捉症状和情绪信息,并整合这些特征,构建了指令集,对模型进行有效训练。[结果] 本文模型在Twitter-Depression和MVSA数据集上,模型分别取得了85.82%和75.47%的F1值,比基线高出2.01%和1.49%。[局限] 基于大语言模型提取的各项信息可能受模型幻觉影响,具有不准确性,需要更准确的提取方法。[结论]证实了隐喻信息在心理疾病检测中的重要性,能为心理疾病检测模型提供丰富的信息。

  • 温晓波, 化柏林
    预出版日期: 2025-07-02

    [目的]对人工智能专利中所涉及到的应用领域进行识别。[方法]在度量学习的框架下,使用基于BERT的双编码器分别对专利文本与应用领域标注文本进行编码并联合优化,获取能表征人工智能专利应用领域的编码结果以完成识别任务。[结果]在人工智能专利应用领域多分类测试中达到了0.947的准确度,在人工智能专利应用识别中获得了轮廓系数为0.36的多层级聚类体系。[局限]尽管质量中等的标注数据可以通过大语言模型获取,然而更高质量的标注数据则不易获得,同时使用的度量学习框架与编码器存在较大优化空间。[结论]度量学习能够用于有针对性地识别人工智能专利的应用领域,并可启发无监督主题识别的优化。

  • 张治鹏, 张李义
    预出版日期: 2025-07-02

    [目的]以短视频广告的观众属性为视角,提取观众的心理属性和人口统计属性变量,探索其对观众参与的影响。[方法]以自我效能理论为基础,利用数据挖掘和深度学习方法构造观众心理属性和人口统计属性变量,通过多元回归模型分析这些变量对观众参与的影响以及产品类型的调节作用。[结果]观众对广告披露感知、消极热评占比、女性占比以及Z世代、中间年龄层和中老年观众占比对观众参与均有不同程度的影响;产品类型对主效应均有调节作用。[局限]观众参与指标比较单一,可以通过获取观众的观看和购买数据进一步扩充。[结论] 观众的心理属性和人口统计属性变量均显著影响观众参与,并且受产品类型的调节。

  • 白宇, 王连吉, 刘翔, 袁金福, 张桂平
    预出版日期: 2025-07-02

    [目的]为提高多模态命名实体识别的效果,本文通过计算实体锚文本与图像区域的语义相关性来过滤不相关视觉区域,达到消除视觉噪声的目的。[方法]使用提示词代替类别词作为实体锚文本对视觉区域进行语义相关性评估,通过降低无关视觉区域的权重来消除无关视觉区域对实体识别的影响,采用多层交互式Transformer进行文本-视觉的模态融合,并通过CRF层实现实体识别。[结果]在公开数据基准上的实验结果表明,本文方法在Twitter15和Twitter17上的F1值达到76.97%和88.88%,相较于主流方法分别提升了0.48%和1.17%。[局限]本文方法基于有监督学习范式,模型效果受标注数据的质量和数量的影响,研究仅基于公开基准数据的实体识别任务,下一步将对模型的可迁移性开展研究。[结论]通过消除视觉噪声,可以有效提高多模态命名实体识别的效果;对不相关视觉区域的过滤可以通过计算实体锚文本与图像区域的语义相关性来实现。

  • 吴亦凡, 马崧捷, 李树青
    预出版日期: 2025-07-02

    [目的]感知用户个人及其好友对流行度处于某一阶段的商品产生的偏好,实现更准确的推荐。[方法]首先计算融合贡献度和影响力的项目流行度,使用注意力机制和循环神经网络捕捉个人的流行度偏好表征,并使用卷积网络和图注意力机制获得好友的长短期流行度偏好。[结果]在Douban数据集、Deliciouse数据集、Yelp数据集上进行了对比实验,本模型的评价指标均优于次优模型DGRec。Recall@20最高提升13.03%,NDCG最高提升11.69%;本文提出的流行度计算方法相比于传统的计算方法Recall@20最高提升11.53%,NDCG最高提升10.29%。[局限]本模型在处理短序列时性能较差。[结论]本模型增加了用户流行度偏好表征和用户社交流行度偏好表征,增强了对每次交互权重的表达能力,为长尾项目提供了一定的曝光率。代码见:

    https://github.com/msj1010/SPPSRec_Pytorch。

  • 于玉海, 邢志琦, 孟佳娜, 高临霖, 王博林
    预出版日期: 2025-07-02

    [目的]在互联网迅速普及的时代,人们可以在数字平台上以多种形式表达自己的情感,多模态情感分析已成为研究热点,其研究结果将为情感分析提供有力支持。[方法]首先提取单模态的特有特征和多模态的共有特征,然后使用跨模态桥连接实现多模态融合,最后引入多头自注意力机制进行多标签预测,有效捕捉不同情绪标签之间的共现关系。[结果]在CMU-MOSEI数据集上的实验结果表明,本文模型在不同参数和对比实验中,相比于基线模型提高了准确率,消融实验结果验证了各模块的有效性。同时,相较于基于单一文本、图像和音频模态的方法,模型准确率分别提升了 11.4%、19.9%、26.8%,说明本文方法能够有效的融合多模态信息。[局限]对于系统性能方面,当前的方法还无法准确捕捉到情感的细微差别。且当前数据集无法涵盖到所有可能的情感表达和文化背景,需要考虑更多样化的数据。[结论]实验结果表明,本文所提出的模型实现了有效的模态融合,在情感分析上取得了较好的结果。

  • 张强, 高颖, 任豆豆, 马志远, 周洪, 陶皖
    预出版日期: 2025-07-02

    [目的]知识图谱内蕴含海量的元组数据,且蕴含时态信息的知识图谱可将随时间变化的事实进行有效保留及使用。探究时态知识图谱补全任务对图谱内动态数据的完备性及其下游应用的发展有着重要意义。[方法]针对当前多数方法将时态知识图谱视为离散数据,无法准确反应事物与时间信息的关系,忽略了局部图结构演化与形成过程,以及全局图结构演化所代表的图谱连续形成模式。本文设计了如下流程:针对局部结构捕获,提出基于表示强化的邻域信息学习过程,有侧重地抓取局部图结构形成流程;对于全局结构演化,提出基于注意力机制的时态事实推理流程,抓取图谱内不同时间对应事实的动态交互区间,学习其变化的潜在模式,模拟时态事实演化行为。[结果]基于公开数据集进行充分实验并与基线模型进行对比,本文模型取得了与先进模型相似的性能表现,在Hits@1和Hits@3指标上分别提升0.9和1.1个百分点,消融实验验证了本文方法改进的有效性,有效完成了时态知识图谱补全任务。[局限]目前的知识图谱补全模型高度依赖特定格式与质量的数据,数据预处理成本高且在数据条件不佳时性能易受影响。[结论]本文提出的综合时态信息和图结构动态演化的知识图谱补全框架,通过表示强化和注意力机制可增强模型的时态理解和推理能力。

  • 张乐, 许央科, 陈岩松, 张雷瀚
    预出版日期: 2025-07-02

    [目的] 运用图文信息进行摘要生成的过程中,针对图文信息不完全和参考摘要相关,直接融合导致噪声信息引入的问题,提出一种大模型主旨增强的图文多模态句子摘要生成方法。[方法] 对大语言模型进行微调以生成高质量的主旨和关键词信息,运用注意力机制有效地融合主旨和图片信息以减少多模态特征内存在的噪声信息;将原文本和关键词进行融合以获得增强主旨信息的多模态语义补充特征,最后融合两种特征生成多模态摘要。[结果] 在公开数据集MMSS上与目前先进的Vision-GPLM模型效果相比,在ROUGE-1、ROUGE-2、ROUGE-L值上分别提升2.79、2.20和2.28个百分点。[局限] 大语言模型微调的提示模板在设计上较为单一,未对大参数量版本的模型进行微调尝试;方法设计上,对于大语言模型生成的低质量摘要在融合效果上有所欠缺。[结论] 本文借助于微调大语言模型的方法来减少多模态特征内存在的噪声信息,使不同模态在融合的同时增强模型对于主旨内容的把握以提升摘要的质量。

  • 毛进, 梁瑜萱
    预出版日期: 2025-07-02

    [目的]通过厘清领域的研究问题、识别领域研究方法的创新路径,帮助掌握领域发展的重点方向和领域内方法创新的演化脉络。[方法]本文首先提出方法创新知识表示模型,利用SciBERT-BiLSTM-CRF模型识别论文全文中的问题知识与方法知识;然后根据共现关系分别构建领域问题网络和方法创新网络;最后使用社区发现算法对领域问题网络进行子类划分,并采用网络全局搜索提取面向问题域的方法知识创新主路径。[结果]从计算语言学领域发现信息抽取、文本分类、机器翻译、文本生成和语义分析等5个问题子域,分别识别出方法知识创新子路径,总体来看,方法演化过程可分为统计方法、深度学习两个阶段。[局限]实体抽取结果的同义词合并有待进步,实验数据集未包含最新论文。[结论]提出的方法能够有效识别领域研究问题和面向问题域的方法知识创新路径。

  • 田甜俊子, 朱学芳
    预出版日期: 2025-07-02

    [目的]缓解应急管理中高领域适配性标注数据稀缺的现状,提高事件识别效果。[方法]研究基于集成学习与半监督学习提出一个持续自动标注学习机制,并结合实体识别、共现网络分析、情感分析等技术实现一个突发事件识别系统。[结果]持续自动标注学习机制能够使用全量数据的20%~35%达到与全量数据相当甚至更好的识别效果。[局限]当前研究收集的数据来源于中国新闻网单一网站,且注重对已有情报的挖掘,在丰富数据来源、应用形式方面尚存一定的改进空间。[结论]研究从理论出发,用实证数据说明系统的有效性,可为相关工作提供参考。

  • 赵雅洁, 冯凌子, 袁军鹏, 王立学
    预出版日期: 2025-07-02

    [目的]政策蕴含丰富的信息资源,加强政策知识图谱顶层设计,构建适配领域特性的通用政策知识图谱,可将碎片化政策信息进行高效融合、共享和利用。[方法]运用解构主义观点,融合对齐多理论与政策要素定位,实现多维度政策知识表示,形成模式层;结合网络获取、索引匹配、全文解析、实体识别与文本分类模型,设计细粒度知识要素抽取方法,获取数据层;利用Neo4j图数据库实现知识存储,可视化形成知识图谱。[结果]最终构建了11种实体、14种关系、13种属性的通用本体模型,明确了29种基本要素内容的抽取标准与9种特性要素内容的获取思路,形成了一套适配要素特点的高效抽取方法与支持动态更新的可视化存储方法;最后以258篇科研诚信政策为例进行了可行性验证。[局限] 自上而下的构建逻辑可能会忽视基层政策特性要素的创新内容,有待后期自底向上实现创新内容识别。[结论]本文提出的构建方法融合了政策通用特征与领域特性,不仅可充分提取政策显隐性知识、揭示更深层次的政策关联,满足各领域建设多样化信息需求,还能提升跨领域政策分析水平,助力政策信息融合共享,推进国家治理能力现代化建设。

  • 仵轩, 李广建, 潘佳立
    预出版日期: 2025-07-02

    【目的】对关键核心技术识别相关成果进行系统综述,厘清其研究重点与发展脉络,以期为后续研究提供参考。【文献范围】基于关键核心技术的系统分析制定检索式,在Web of Science和CNKI数据库中进行文献检索,获取661篇论文进行定量分析,经人工筛选得到60篇代表性文献进行综述。【方法】首先,归纳关键核心技术的概念特点及检索策略以明晰综述范围;其次,分析关键核心技术的特征体系及识别标准以厘清研究思路;再次,整理关键核心技术的识别方法及分类体系以明确研究框架;最后,探讨现有研究的局限问题及不足之处以展望研究趋势。【结果】关键核心技术具有重要性、创新性、价值度、保护度和辐射性五大特征,其识别标准有采用单特征、双特征和三特征及以上三类,其识别标准的计量方法可分为基于专家智慧与基于数据驱动两大类,后者又可分为依托计量统计、依托文本挖掘以及依托深度学习三种类型。【局限】以人工筛选得到的代表性文献为基础进行综述,可能未全覆盖相关研究。【结论】需要综合利用不同方法的优势、探索新的数据源、解析关键核心技术动态演化规律以全面精准地识别关键核心技术。

  • 潘晓, 董慧, 陈晓
    预出版日期: 2025-07-02

    [目的]针对目前多任务行程时间预测研究中,存在的刻画路段波及效应影响范围的灵活性不足,以及在标注数据受限情况下模型学习能力较差的问题,提出一种基于时空图结构学习与路线特征增强的行程时间预测方法。[方法]该方法首先利用自适应机制初始化基础的时空图结构,并构建基于Encoder-only的学习组件,灵活且深入地捕捉全域路网范围内路段间的时空交互依赖关系,从而生成高质量的波及效应时空图及相应的时空特征表示;再利用该表示强化路线特征的表达能力,进一步基于多头注意力机制捕捉路线的潜在上下文时空依赖关系;最后,整合不同预测任务的分层差异化训练机制,实现对行程时间的准确预测。[结果]在滴滴深圳数据集上的实验结果表明,所提方法在多个性能指标上均优于基线方法。与表现最优的基线方法相比,MAE、RMSE和MAPE指标分别降低了1.23%,5.07%,3.93%。[局限]由于时空图神经网络计算复杂度较高,目前该方法仅适用于较小规模的路网。[结论]基于时空图结构学习的方法可以灵活刻画路段的波及范围,从而生成具有高表征能力的路网时空特征表示。通过该表示强化路线特征,并捕捉路线的隐式上下文时空依赖关系及整合预测任务的差异化训练模块,在一定程度上提高了整个预测框架的泛化能力和预测稳健性。

  • 李非燕, 曹诗权, 苏宇
    预出版日期: 2025-07-02

    【目的】在数字化转型和移动互联网快速发展的背景下,隐私政策合规性分析已成为关键议题。以往的自动化分析方法主要关注隐私政策的完整性,忽略了分析隐私政策的一致性。同时,这些方法需要大量的标注样本,限制了其使用场景。本文致力于提出一种兼顾完整性和一致性、且不需要标注样本的自动化隐私政策合规性分析方法。【方法】首先,根据《个人信息保护法》等相关法规标准,从完整性和一致性两个角度构建了隐私政策合规性评价体系。基于此,提出了一种知识融入的提示学习模型KIPL(Knowledge-Integrated Prompt Learning),通过领域知识微调预训练语言模型并构建提示模板,使其能够在零样本条件下自动分析隐私政策的合规性。最后运用模型分析了小米应用商店14个领域的APP隐私政策合规性。【结果】实验结果表明,KIPL在领域数据集上的准确性、召回率上均较对比方法提升3%以上。通过分析14个领域的隐私政策,本文揭示了各领域在隐私保护上的不足之处,尤其在儿童隐私、数据安全等方面的合规性差异。【局限】当前测评样本数据量较小。【结论】KIPL模型通过结合完整性和一致性分析,实现了零样本场景下的自动化隐私政策合规性分析,在提升分析效果的同时降低了使用成本。实证研究不仅可以为APP运营商提供明确的改进方向,帮助其优化隐私政策内容,还能为政府监管部门提供全面的合规性数据支持,推动行业标准的统一和改进。

  • 周健, 吕璐成, 李佳政, 赵亚娟
    预出版日期: 2025-07-02

    【目的】构建专利语义相似度测度效果量化评价方法,实现多种专利语义相似度测度方法的客观评价。【方法】基于同一分类层级下专利语义相似度更高的思想,兼顾时间与技术领域因素自动构造测度效果评价数据集,设计Rank一致性指标指标和假设检验方法来构建针对不同向量化模型的专利语义相似度测度效果评价方法,并构建中文和英文专利数据集进行评价方法的实证。【结果】本文选择基于L1距离的Rank一致性指标与U检验进行了实证研究,基于不同向量化模型的Rank一致性指标的非正态性验证了采用U检验的合理性。分别对于中英文专利数据,选择三类模型实证评价出了最优中文专利语义相似度测度模型(Bert)和最优英文专利语义相似度测度模型(Llama 2)。【局限】评价方法虽然在统计学上具有较好的可解释性,但缺乏基于金标准对评价方法的验证。【结论】本方法能够客观评价多种向量化模型的语义相似度测度效果,能够为专利分析工作选取专利语义相似度计算方法提供参考依据。

  • 田雪灿, 孙蒙鸽, 胡懋地
    预出版日期: 2025-04-01

    [目的]为解决前沿研究热点的自动探测问题,本研究提出一种利用图神经网络和大语言模型实现关键信息筛选与总结归纳的技术方法。[方法]利用节点和边同时聚合的NE-GraphSAGE模型筛选出更可能揭示领域前沿热点的关键论文,以此为输入,综合采用结构化提示、思维链提示、少样本提示三种提示技术引导大语言模型探测领域前沿研究热点,并采用相似度度量评估其探测效果。[结果]相比于基于节点聚合的N-GraphSAGE模型和基于边聚合的E-GraphSAGE模型,NE-GraphSAGE模型表现最优,测试准确率达到了83.98%。通过三种提示技术提升了大语言模型的探测效果,ChatGPT-4o探测结果中“术语”和“解释”部分的F1值分别达到了0.73和0.77,同时可以看到长文本、多数量的学习样例不利于大模型探测推理。[局限]仅以论文数据为单一探测源,数据分析维度存在不足,未来有待对其他数据源进行对比分析。[结论]提出的自动探测框架在一定程度上减缓了人为的主观影响,细化了探测颗粒度,为未来实现“人智协同”提供了参考视角。

  • 王楠, 王淇
    预出版日期: 2025-04-01

    [目的]通过构建有效的学生理解度图像数据集,设计基于深度学习的学生理解度得分预测模型,克服当前公开人脸数据集与实际课堂状态不匹配及使用专注度测评局限于仅捕捉学生课堂直观表现的问题。[方法]基于真实的在线教学课堂环境采集学生表情图像数据,建立适应理解度预测需求的学生表情数据集,结合加权知识点得分和自我理解度评价得分提出理解度标签的主客观联合计算公式,并设计了融合三种模块的理解度预测模型。[结果]理解度得分预测模型评测结果表明,本文提出模型在测试集上多次迭代后,其平均绝对误差达到0.14,在4种对比模型架构中的表现最好;理解度水平评价结果表明,与笔者先前对专注度水平的研究结果对比,本文提出的理解度能够更加全面深入地反映和衡量学生课堂对所讲授知识点的理解程度。[局限]本文在研究学生理解度时高度依赖于学生的姿态特征与情绪特征,未深入探究其他影响理解度水平的特征。[结论]本文设计的模型能够有效预测在线教学环境中学生的理解度水平,且与专注度水平的对比体现了教学效果多维度联合评估的理念。

  • 吕学强, 万甜, 马登豪, 才藏太, 陈玉忠
    预出版日期: 2025-04-01

    [目的]为改善现有关键词提取方法中注意力范围有限、语义表征能力不足以及生成能力受限等问题,提出一种集成大模型与多特征网络的专利关键词提取方法(LLM-PKE)。[方法]LLM-PKE由三个模块组成,其中在抽取模块中,通过将主题信息融入Transformer注意力网络,并结合图卷积网络,以提高模型对主题词的敏感度以及对文本特征的提取能力,从而有效抽取关键词。在生成模块中,基于大语言模型生成与专利文本高度相关的关键词。最后,在关键词排序模块中,利用大语言模型为每个关键词生成相似度得分,剔除同义词和相关性较低的词汇,最终获得专利关键词。[结果]相比最优的对比模型,本方法在F@5评价指标上提升1.98个百分点,显著提升了关键词提取的效果。[局限]本文通过设定阈值进行语义相似度匹配,以去除高相似度关键词。然而,由于不同专利文本中相似性标准的差异性,这种方法的准确性和泛用性可能受到一定限制。[结论]LLM-PKE模型在专利数据集上,能够有效提升提取专利关键词的效果。

  • 王宇飞, 张智雄, 张琴, 张梦婷
    预出版日期: 2025-04-01

    [目的]创新句是科技论文主要研究和核心贡献的集中体现,自动识别科技论文中的创新句对于揭示论文的创新思想、把握科学研究的前沿动态具有重要意义。[方法]本文提出了一种基于富集区发现的创新句识别方法,通过两个阶段识别科技论文中的创新句:首先构建创新句富集区特征词表,并采用滑动窗口打分的方式定位出创新句富集区,以有效缩小创新句的识别范围;而后设计融合上下文语境信息的Context-BERT模型,实现富集区中创新句的自动识别。[结果]实验结果表明,本文提出的方法在测试数据集上达到了较好的效果(F1值为87.27%),能够有效且较为准确地识别出科技论文中的创新句。

    [局限]本文所使用的数据集来源较为单一且局限于计算机领域。[结论]本文充分利用创新句的分布特点与上下文特征,提出了一套有效的创新句识别方法,且进一步构建了创新句自动识别引擎,初步实现了所提方法的实际应用。

  • 王茜, 方安, 娄培, 杨雨生, 王蕾
    预出版日期: 2025-04-01

    [目的]提出一种面向科技文献的机构名称对齐方法。[方法]利用大语言模型结合提示工程,从科技文献著录信息中识别机构及其相关实体并构建机构知识图谱,通过文本嵌入和图卷积网络,基于构建的知识图谱实现不同表述形式的同一机构名称对齐。[结果]与直接通过文本对齐的方法性能相比,在不需要额外训练的情况下机构名称对齐效果Hit@1,Hit@10和MRR分别提升24%,7%和12%。[局限]处理复杂信息结构文本中的跨语种、多模态的实体对齐效果有待提升。[结论]一种融合提示工程与图卷积网络的机构名称对齐模型,能够提高科研实体名称规范库建设的效率和效果。

  • 但志平, 李琳, 余肖生, 鲁雨洁, 李碧涛
    预出版日期: 2025-02-12

    [目的]针对无法有效识别中文文本中存在的不包含明显恶意词汇的仇恨言论问题,提出了一种融合多维情感特征的中文仇恨言论检测方法——RMSF。[方法]首先,使用RoBERTa提取输入文本的字符及句子级特征,并使用情感词典等工具提取文本的多维度情感特征;其次,将字符特征及情感特征进行拼接后输入到BiLSTM网络中,学习更深层次的上下文语义信息;最后,将BiLSTM的输出和RoBERTa提取的句子特征拼接,输入MLP层进行处理,并应用SoftMax函数进行类别预测。为了解决数据类别不平衡问题,采用焦点损失函数优化模型,从而提升判别输入文本是否为仇恨言论的准确率。[结果]RMSF在TOXICN数据集中精确率为82.63%,召回率为82.41%,F1 值达到82.45%;在COLDataset数据集中精确率为82.94%,召回率为82.96%,F1 值达到82.85%,与现有方法相比,F1值分别提高了1.85%和1.09%。[局限]融合多维情感特征的仇恨言论检测方法需要依赖情感词典等工具,情感特征的提取受到词典内容的制约。[结论]在中文仇恨言论检测模型中结合多维度情感特征能够有效提高检测的效果,且实验结果也证明本文融合多维度情感特征的方法是有效的。

  • 杨颖, 张凌峰
    预出版日期: 2025-02-11

    [目的]现有关于多模态评论有用性的研究大多关注图片和文本模态的简单融合,本文拟探讨产品领域知识以及图文动态交互对评论有用性的影响,提升多模态评论有用性识别的性能。[方法]本文提出了一种领域知识增强的多模态评论有用性识别方法,首先是基于评论的隐含主题信息识别领域关键词,并利用主题注意力机制获得评论的领域知识特征表示;接着设计了一个知识增强的图文动态交互模块,通过知识增强模态内自注意力机制获得知识与文本和图片进行动态交互后的特征表示,通过知识增强模态间协同注意力机制获得知识增强的文本与图片进行动态交互后的特征表示。[结果]在亚马逊数据集上检测的F1值得达到89.57%,比最优基线模型提高了0.9%。[局限]本文仅在英文数据集上进行实验,在中文数据集上的性能有待进一步研究。[结论]本文利用领域知识对模型进行增强,不仅能有效提升评论有用性识别的性能,还能很好地提取图片和文本中的关键信息,增加了模型的可解释性。

  • 海佳丽, 汪润, 袁良志, 张凯睿, 邓文萍, 肖勇, 周涛, 常凯
    预出版日期: 2025-02-11

    [目的]构建基于检索增强的中医药标准知识问答系统,将高质量的中医药标准化知识和实践经验精准有效地传递给中医药行业从业者和普通民众,提升中医药标准化研究和应用水平。[方法]通过对比已有的大语言模型(如BaiChuan、Gemma、通义千问等)的性能表现,选择GPT 3.5模型作为基础模型,结合数据优化和检索增强生成等技术手段,开发出具有语义分析、上下文关联和生成能力的中医药标准知识问答系统。[结果]基于检索增强的中医药标准知识问答系统的答案相关性在中医文献问题生成数据集上的精确率、召回率和F1值分别为87.9%、83.9%、85.7%,在中医药标准问答数据集上的精确率、召回率和F1值分别为87.1%、83.6%、85.3%,上下文相关性在中医文献问题生成数据集上的精确率、召回率和F1值分别为83.8%、86.9%、85.3%,各项指标优于对比模型,表明本系统相较于其他模型能更好回答中医药标准相关的问题,具有较高的准确性。[局限]当前系统的意图识别模块仍需进一步优化,中医药标准知识库规模有待进一步扩充和更细粒度完善。[结论]本研究针对中医药知识服务的现实需求,探讨构建了基于检索增强的中医药标准知识问答系统,该系统能够回答用户关于中医药诊疗指南、中药标准、信息标准等各类问题,包括治疗原则、病证分类、治疗方法、中医药标准内容技术要求等,展示了较高的实用性和可行性。

  • 唐朝, 陈波, 谭泽霖, 赵小兵
    预出版日期: 2025-02-11

    [目的] 通过知识蒸馏将外部的来源于无监督数据的额外知识以训练数据的形式注入学生实体抽取模型,缓解古籍实体抽取任务有监督数据稀缺的问题。[方法] 使用大语言模型作为生成式知识教师模型,在无监督语料上进行知识蒸馏;基于《左传》和GuNer的有监督数据构造词典知识教师模型蒸馏词典知识,共同构建半监督古籍实体抽取数据集,并将古籍实体抽取任务转换为序列到序列任务,再微调mT5、UIE等预训练模型。[结果] 在《左传》和GuNer数据集上四类实体的F1指标分别达到了89.15%和95.47%,与使用古籍语料增量微调的基线模型SikuBERT和SikuRoBERTa相比,F1指标分别提升了8.15和9.27个百分点。[局限] 未加入实体额外信息;受限于大模型生成的数据质量。[结论] 该方法在低资源情境下,利用预训练大语言模型和词典资源的知识优势,将知识有效地蒸馏到学生模型,显著提升了古籍实体抽取的效果。

  • 曾闻, 王曰芬
    预出版日期: 2025-02-11

    [目的] 本文旨在通过研究专利技术转移类型分布特点与演化规律,为科技创新活动提供决策参考。[方法]根据专利转让的输入与输出构建专利技术转移信息数据库,划分时间阶段并构建网络,选取专利特征值构建转移范围和转移深度指标并基于战略坐标图界定技术转移类型,结合Markov链方法分析不同时段的类型分布与演化趋向。[结果] 我国AI专利技术转移类型中Ⅲ型最为普遍,Ⅰ型高度聚集于长、珠三角地区,多数省市遵循由Ⅲ型到Ⅱ型到Ⅰ型的发展规律,技术转移类型随时间推移维持概率高,尤其Ⅰ型维持概率达100%,类型间跨级跃迁减少。[局限] 仅选取两个维度指标研究技术转移类型,未来可采用多维度指标进行分析。[结论] 研究得出的技术转移特征及类型演化规律可为政府与企业制定有针对性的专利转移转化政策与策略提供参考。

  • 何多魁, 唐中君, 陈倩倩, 王怡然, 胡锋
    预出版日期: 2025-02-11

    [目的] 提出一种微调大语言模型驱动的能保证主题识别准确度且能揭示主题演化规律的短文本动态主题建模方法。[方法] 该方法结合指令微调、检索增强生成(RAG)和聚类技术,以提升主题识别准确度;基于主题映射关系,依时间顺序对主题进行全面统计,以便揭示主题演化规律。[结果] 通过对四个短文本数据集的验证,本研究提出的动态主题建模方法在主题一致性(TC)和主题多样性(TD)得分上分别比次优模型平均高出6.15和7.71个百分点。消融实验进一步分析了微调、RAG和聚类技术对主题识别性能的影响。此外,研究还揭示了不同数据集中的主题演化规律,包括“M型”和“L型”等模式。[局限] 后续研究可结合知识图谱优化 RAG 提升主题识别能力,并选取多个领域的短文本验证模型的普适性。[结论] 实验证明,本文所提方法在主题识别和主题演化方面具有明显优势。

  • 刘艳, 詹雅兰, 江梓恒, 李锦亮, 颜志军, 贺超城
    预出版日期: 2025-02-11

    [目的] 针对已有文献对谣言语言风格特征和部分真实的双面健康信息关注较少的研究不足,提出了一个考虑语言风格特征的多模态在线健康谣言检测框架(A multimodal wide and deep approach for online health rumor detection considering language style,MWDLS)。[方法] MWDLS利用亚里士多德修辞理论来提取诉诸情感、诉诸逻辑和诉诸人格的说服语言风格特征,然后基于双向跨模态交互融合策略和门控机制来实现浅层语言风格特征和深层语言内容特征的联合表征学习和分类预测。[结果] 基于一个微博场景真实数据集的一系列对比实验与消融实验发现,MWDLS的平均F1值在目标任务上比基线模型提高了1.75% ~ 11.98%,表明了MWDLS在健康谣言检测任务上的优越性。[局限] 随着大语言模型性能的不断增强,未来可将本文算法框架与大语言模型进行结合,以探索新的性能提升方向。[结论] 本文提出了一个融合语言风格特征和语言内容特征的多模态健康谣言检测框架,并基于真实社交媒体数据集验证了该模型在健康谣言检测任务上的有效性,具有重要的理论与实践意义。