【目的】从科技文献中高效挖掘科学实验知识与数据,构建科学实验知识图谱,为知识发现提供高质量数据支撑。【方法】利用事件知识图谱技术对科学实验的复杂性、时序性及知识和数据融合性等知识对象进行统一的知识表示与建模,构建科学实验知识图谱模式层;利用大语言模型提升科学实验知识图谱数据层的知识抽取效率,并以有机太阳能电池为例进行实证。【结果】采用人工标注与大语言模型微调方式构建了一个有机太阳能电池领域科学实验知识图谱,包含34类节点,9种关系,总计有24 348个节点和123 642个关系。【局限】 数据来源仅包括论文和专利;科学实验知识图谱构建需要较多专家人工参与,效率尚待进一步提高;未考虑细分领域中的细粒度研究规程和研究方法检验规则等。【结论】本文提出的学科领域科学实验知识图谱构建方法可为实验方案推荐、科学实验演化分析、AI for Science等提供高质量数据支持,有效支撑各类知识发现场景。
【目的】针对现有情感分析研究中多模态数据融合不充分且很少考虑模态间异构性的影响,从而导致情感分类准确率不高的问题,提出一种基于Translate机制的交叉融合多模态情感分析模型。【方法】首先通过Translate机制实现文本、图像和音频模态特征间的相互转换;然后将转换后的模态特征与目标模态特征进行融合(单模态融合),从而避免不同模态的异构性对模型性能的影响;最后使用交叉融合将不同模态特征充分交互,生成充分学习单模态信息的多模态特征,进而输入分类器中进行情感分类。【结果】在CMU-MOSI和CMU-MOSEI公开数据集上与当前主流情感分析模型进行对比实验。相较于次优模型,所提模型的准确率和F1值分别提升0.96和1.00个百分点。【局限】 多模态数据中各模态对于情感分析的贡献度不同,模型没有特别考虑图像和音频模态贡献度高于文本模态的场景。【结论】所提模型充分融合了模态间信息,避免了模态间异构性的影响,能够有效提升模型整体性能。
【目的】基于学术谱系构建学科知识转移网络,为考溯学科知识体系演化特征提供参考。【方法】首先,基于导学关系数据构建学术谱系网络及识别学者所处代际;其次,借助学科知识分类体系,使用混合推荐算法重新组织并关联学者知识领域;最后,构建知识转移网络并分析学科知识的代际演化和时序演化特征。【结果】获取计算机科学领域学术谱系及论文数据,系统阐述所提方法的应用过程。研究发现,计算机科学领域内学者代际关系多为两代关系,跨学科师承关系占据重要地位。随着领域内代际的增加,学科知识转移更偏向于领域内子领域间传播或同一子领域内的传承。【局限】 知识转移是由多种途径实现的,研究未充分考虑融合引文等多源数据,学术谱系数据规模和质量对分析结果具有一定影响。【结论】从学术谱系视角出发构建学科知识转移网络并进行演化分析,能够细化科学发展过程的描述粒度,为探索知识转移的微观机制提供方法参考。
【目的】结合“科学-技术”文本内容特征及复杂网络关系开展关键核心技术识别方法研究,为政府、科研机构和产业界合理制定科技战略规划、开展科技创新活动提供支撑。【方法】运用Sentence-BERTopic模型对句子级别的论文和专利文本语料进行深层次语义融合及知识主题建模,根据论文和专利文献的引文关系构建“科学-技术”知识主题复杂网络,然后结合节点质量特征、时间衰减因子、入链节点边的权重和出度等因素对传统的PageRank算法进行改进,并对领域内节点重要性和影响力进行排序,最后结合重尾分级法遴选出关键核心技术。【结果】在数控机床领域进行实证研究,从中遴选出热误差建模与补偿、数控机床控制技术、数控机床进给系统等53个关键核心技术,将此结果与国内外相关政策规划进行对比,基本涵盖了领域内重要的关键核心技术。【局限】 缺乏对引用位置、引用动机、引用行为及句子目的等深入分析,可能影响识别的准确性。【结论】通过构建“科学-技术”复杂网络及KCR算法全面揭示科学和技术的知识结构及其拓扑特征,实现了关键核心技术的细粒度精准量化识别。
【目的】解决潜在高价值专利识别过程中序列建模的长距离依赖问题以及序列特征的关键信息获取问题,提升潜在高价值专利识别精准度和可解释性。【方法】提出一种基于预训练模型XLNet和双向注意力机制的潜在高价值专利识别模型XLBBC,通过XLNet模型进行专利文本表示和高质量语义获取,再利用BiGRU网络获取全局文本序列信息,随后嵌入BiAttention层使模型集中注意力于输入序列的不同部分,联合CNN层捕捉专利文本中的关键短语和特定模式。在非晶合金、工业机器人、钙钛矿太阳能电池和基因芯片等领域的混合专利数据集展开实证研究。【结果】XLBBC模型在一定数据规模(40 000条专利数据)时具备高准确性(0.89)和一致性(0.65)的双重优势;模型的预测准确率达到42%左右,较既有研究模型的准确率提升约9%。【局限】 未考虑标准必要专利与高价值专利的关联关系和融合机制,算法效率和可扩展性仍需进一步优化。【结论】XLBBC模型在处理复杂文本数据时更具优势;XLNet模型在全局语义理解上具备优越性;当注意力层处于XLNet-BiGRU层和CNN层之间时,会取得更好的模型效果。
【目的】探究跨领域知识融合对高价值专利的影响,揭示高价值专利的特征。【方法】以中国专利金奖获奖专利表征高价值专利,从IPC分类号与知识单元两个维度分别测度专利的跨领域知识融合程度,并运用回归分析探究其对专利是否获奖与专利单一价值维度的影响。【结果】高价值专利在IPC分类号上表现出更低的跨领域程度,但知识内容更加丰富。IPC分类号和知识单元表征的跨领域程度与专利单一价值维度之间分别呈现“倒U”型关系与负向影响关系。【局限】 仅以中国专利金奖获奖专利表征高价值专利,无法表征高价值专利的全部特征。【结论】本研究有利于尽早识别与保护高价值专利,促进专利源头质量管理和转化运用。
【目的】为促进发明人之间的合作交流,提高创新效率,本文重点研究如何帮助发明人从海量专利文献中识别潜在合作伙伴及辨析合作伙伴类型。【方法】从动态网络视角考虑发明人合作网络结构和节点属性的动态变化,提出基于动态图卷积网络的发明人潜在合作伙伴识别方法,进而细分发明人合作伙伴类型。【结果】采用集成电路领域专利数据进行实证,本文方法AUC值达到0.846 4,错误率为0.289 7,ER+为0.083 0,ER-为0.206 7,均显著优于基线模型。【局限】 仅考虑了发明人的专利信息,忽略了发明人的多源创新成果,如论文信息等。【结论】本文方法利用合作网络结构及节点属性随时间的动态变化,在进行伙伴识别时能够有效提升模型准确率。通过识别潜在合作伙伴及细分伙伴类型,有助于发明人选择恰当的合作策略,提高合作效率和效果,有效补充了现有合作伙伴选择方法研究框架。
【目的】提出文本嵌入动态图神经网络的链路预测方法,旨在对人工智能领域技术创新的融合趋势进行建模与预测,揭示潜在的技术关联和创新路径。【方法】将专利摘要文本融入动态图神经网络的节点特征表示中,借助动态图神经网络的学习能力得到更准确的链路预测结果。【结果】以国内AI领域为例进行验证,相较于相似度模型和传统图表示学习模型,本文方法的AUC提升约0.06。【局限】 由于嵌入维度过大,难以与图神经网络融合,专利摘要文本嵌入时未使用大语言模型。【结论】该方法预测准确度高,增强了对未来AI领域专利融合预测的可信度,是开展细粒度链路预测的一种有效方法。
【目的】为大语言模型场景下的个人数据定价提供一种量化隐私损失、补偿隐私价值的方法。【方法】基于前提假设,结合差分隐私,以方向统计学为基础,提出一种能够评估数据隐私值并量化数据价值的方法,进而利用SST-2数据集进行方法评估。【结果】在隐私参数与准确率、预算与准确率的关系方面,随着隐私参数的增加或预算的增加,模型准确率均会增加,证明了方法的有效性。【局限】 数据集和模型架构的选择较为单一;在定价机制上仅考虑了隐私因素对价格的影响。【结论】所提方法能够评估数据的隐私值,并量化数据价值,为大语言模型下的个人数据定价提供支撑。
【目的】为了有效识别非结构化学术文献中有价值的实体,建立一个统一的实体识别框架。【方法】采用BERT+Global Pointer(GP)框架,通过整体统一的思想建模实体边界,设计适配指针机制的交叉熵损失函数,并结合CRF、GPT-4和BERT进行多模型对比验证。【结果】在不同类型的数据集上,本文模型的准确率、召回率和F1值均有不错表现。在非嵌套数据集上的平均F1值分别达到95.38%和79.81%,而在嵌套数据集上的平均F1值分别达到66.91%和61.47%,且模型总体性能在不需要人工制定特征模板的情况下优于对比模型。【局限】 对于整体的嵌套实体识别,GP模型为了能够从应用的角度高效而精准地识别相应的实体,仍需要进一步优化。【结论】GP模型在实体统一识别中可以有效利用实体的位置特征,对于复杂的嵌套实体,不仅能提高识别的准确度,还能兼顾识别的便捷性。
【目的】针对英文文本中存在多重嵌套和实体语义不明确的问题,提出一种融合单词多元信息的嵌套命名实体识别方法GTR-NNER。【方法】基于三仿射注意力引导的图卷积网络模块融合单词信息、单词位置信息、单词边界信息、单词标签信息以及语法信息,根据得到的多元信息进行跨度枚举,最后通过判别器完成实体识别。【结果】在两个嵌套数据集上进行10折交叉验证,GTR-NNER方法的平均F1值分别为84.38%和91.44%;在两个非完全嵌套数据集GENIA和ACE2005上,GTR-NNER方法的F1值分别为82.19%和89.27%。【局限】 融合单词的多元信息致使模型的收敛速度变慢。【结论】在命名实体识别模型中结合单词的多元信息能够提高嵌套实体识别的效果,且实验结果证明本文融合单词多元信息的方法是有效的。
【目的】针对当前案件相似度计算方法存在难以捕捉关键法律要素间长距离、全局和非连续的法律关系,以及文本相似但案件不相似的难分样本区分问题,提出一种更有效的案件相似度计算方法。【方法】构建案件知识图谱结构化表示案件事实,结合图卷积与双向长短期记忆网络编码案件知识图谱,感知主客体间复杂的法律关系,引入难/易混合的负样本挖掘机制提升区分难分样本的能力。【结果】在“中国法研杯”司法人工智能挑战赛提供的基准数据集上的实验表明,所提模型相较冠军模型准确率提升11个百分点,较基于注意力卷积神经网络方法提升7个百分点。【局限】 案件知识图谱构建可能会影响相似度计算的效率,但可以通过离线图谱构建、节点预向量化等计算加速策略来克服。【结论】本方法能有效感知关键法律要素间复杂的法律关系,学习不同案件的区别与联系,提升案件相似度计算性能。
【目的】解决基于深度学习的实体关系抽取方法在古籍小样本场景下,由于依赖大规模标注数据而导致的微调效率低、抽取性能不佳问题。【方法】提出一种基于提示学习和抽取式阅读理解的古籍礼仪实体关系联合抽取方法。首先,将实体识别和关系抽取任务整合至一个抽取式阅读理解框架中,简化模型结构。然后,利用领域知识设计三种轻量级提示策略,有效降低联合抽取任务的复杂度。最后,基于预训练语言模型和全局指针网络构建古籍礼仪实体关系联合抽取模型MPG-GP (MRC-Prompt-GujiBERT with Global Pointer),有效抽取古籍中的礼仪实体关系三元组。【结果】在构建的古籍礼仪实体关系联合抽取数据集上进行实验,本文方法F1值比基线方法提升了0.32~6.05个百分点。【局限】 在构建提示模板时,未采用可学习的软提示方式,并且提示设计仍有进一步优化的空间。【结论】所提方法能够有效缓解深度神经网络对大量标注数据的依赖,提升了模型在小样本古籍礼仪实体关系联合抽取任务上的准确性,为古籍低资源场景信息抽取提供了新的方法和思路。