【目的】支撑通用大模型与科学大模型的预训练、微调、知识增强推理,以及智能科技文献情报服务的规模化应用。【方法】本文首先剖析AI4S范式面临的核心挑战与内在要求,其次明确AI4S科技文献知识底座的概念内涵与关键特征。在此基础上,提出构建AI4S科技文献知识底座的“数据-模型-服务”三层理论框架体系,系统梳理该框架落地实施的关键技术与可行路径,并通过实践案例验证该理论框架体系的有效性。【结果】本研究基于上述理论与方法,初步建成以“科情数据”为核心的智能就绪语料数据底座、以科技文献大模型与领域专用模型为核心的智能模型底座,以及多场景驱动的AI4S与AI4Data智能体服务底座,已成功支撑智能化工、数字细胞等典型AI4S场景的科研创新活动。【局限】 本文提出的AI4S科技文献知识底座理论框架,在多用户协同、多领域跨场景的规模化应用中,仍需持续验证与迭代优化。【结论】本文构建的三层理论框架体系,可为通用与专用智能模型研发、智能就绪语料标准化加工等场景提供可行的模式参考;所建成的科技文献知识底座,将成为推动通用大模型和科学大模型预训练效率提升、微调精度优化,以及知识推理、计算分析等数智化能力提升的新型科研基础设施。
【目的】面向化学工业智能化转型需求,汇聚并挖掘科技文献中的领域知识,构建化工领域AI4S科技文献知识底座。【方法】研发全流程工具链,汇聚整编大规模化工科技文献形成原始整编库,对文本、表格、图像、公式等多模态对象进行解构与重组,形成多模态解构重组库,构建化工本体,基于智能化工大模型挖掘实体及关系,融合对齐形成化工专题知识库。【结果】形成覆盖文献汇聚、清洗整编、解构重组、知识挖掘与对齐的工具链,建成包含约1 020万条原始整编数据、约1 020万条多模态解构重组数据及约26万条知识三元组的化工知识底座,在石化化工全链条大数据中心上线应用。【局限】 对于低频长尾知识和强场景化复杂知识,现有知识挖掘方法仍需进一步开展针对性优化。【结论】本文贯通“汇聚整编-解构重组-挖掘对齐”流程,实现基于科技文献的化工知识底座高效构建,为化工领域AI4S提供了知识支撑。
【目的】为解决海量化工知识交互带来的高价值逻辑链提取难题,克服传统图挖掘技术难以兼顾深层语义与高可解释性的技术局限,本文提出一套融合化工知识底座和大语言模型的关键知识路径挖掘框架。【方法】以化工知识底座的知识体系为蓝本,设计任务导向的多维提示语,引导大语言模型从原始数据中精准抽取知识实体;利用化工知识底座的权威术语体系、同义词表等对大语言模型进行约束,得到实体映射到底座的标准本体,实现知识实体的高效对齐;在知识底座的图网络中,通过图挖掘算法获取目标知识实体之间的候选知识路径;结合大语言模型从关键知识实体与度中心性角度,对大量候选知识路径进行质量过滤,挖掘出高价值、可解释、可溯源的关键知识路径。【结果】在1 650条化工领域问答对数据集上进行实证验证:每条问答对数据挖掘出10条高质量关键知识路径,经领域专家人工判读,有效路径占比高达71.8%。将上述路径注入大语言模型的推理过程,模型生成答案准确率提升至77.7%,显著高于无路径注入的准确率(17.3%)及仅依赖大语言模型自抽取的准确率(60.5%)。【局限】 知识节点仅以关键词表征,难以全面覆盖原始信息;基于单一维度的路径筛选策略,制约了复杂场景下的深层挖掘;且尚未对知识路径开展细粒度分类与深层价值评估。【结论】化工知识底座与大语言模型的协同显著提升了关键知识路径挖掘的质量与效率,可为化工领域智能科研提供高质量数据支撑。
【目的】 为满足数字细胞研究在知识发现、假设生成等关键环节对精准知识服务的需求,提出一种知识底座赋能的智能问答框架。【方法】 通过构建混合知识库融合多模态数据,设计基于查询感知的动态检索策略实现多库交互与检索权重优化,引导智能体基于自我反思机制迭代优化问答结果。【结果】 实验表明,本研究在针对数字细胞领域的核心查询测试中,平均召回率为93.2%,验证了其精准筛选知识的能力。基于此,进一步构建覆盖1 077万篇文献的数字细胞知识底座,并研发支持多模态检索的智能知识服务平台。【局限】 复杂查询场景下数据的向量化表征与召回精度仍有提升空间。【结论】 本研究能有效实现科技文献多模态知识的深度融合与检索利用,为数字细胞研究提供专业化的智能问答服务支持。
【目的】 构建基于多模态数据挖掘的碳密度智能评估方法,实现动态精准量化。【方法】 利用文档结构与版面分析技术解析多模态内容,基于提示工程和检索增强生成的大语言模型,结合光学字符识别技术抽取碳密度等字段以构建数据库,采用回归克里金法进行碳密度插值。【结果】 构建了高精度碳密度数据库,同时分析发现离子吸附型稀土矿矿区平均地上碳密度由2010年的最低值1.13 kg/m²回升至2020年1.41 kg/m²,回升期与多项环保政策实施时间高度吻合。【局限】 不同年份碳密度数据的数量及分布不均,使得不同点位精度差别较大,需进一步收集相关资料数据,增加精度。【结论】 本研究为碳循环评估提供数据与模型支撑,为区域生态监测与政策量化评估提供新思路。
【目的】 系统梳理基于大语言模型生成科学假设的方法体系与应用进展,揭示该领域的研究现状与发展趋势。【文献范围】 以“Large Language Models”“Scientific Hypothesis Generation”等为关键词构建检索式,在Web of Science、Google Scholar及中国知网等数据库中检索2021年-2026年间的文献,最终筛选出98篇代表性文献进行分析。【方法】 从生成流程逻辑、技术路径演进与关键问题三个层面构建分析框架,系统述评知识获取、初步假设生成、迭代优化与评价验证等各环节的已有做法,对比剖析底层技术体系,深入分析核心难点及现有解决思路,并总结相关基准数据集与典型应用。【结果】 大语言模型的知识整合与关联发现能力为科学假设生成提供了新范式,已在多领域真实场景中产出经实验验证的假设。现有研究呈现出上下文工程、监督微调、强化学习、规划与搜索及多智能体协作5类核心技术路径协同作用的趋势。假设生成的核心流程已初步形成方法论,但在知识线索发现、创新假设推理及可信性等方面仍存在挑战,模型的幻觉与内在推理能力是主要瓶颈。【局限】 该新兴交叉领域发展迅速,部分最新成果可能未被涵盖;主要聚焦于方法论框架的梳理,未对各方法的量化性能进行系统性比较。【结论】 大语言模型已展现出辅助生成甚至自主发现具有科学价值的假设的能力,实现规模化、跨学科的高效假设探索。未来研究应在可靠性与创新性平衡机制、深层推理能力提升、人机协作模式、假设生成与实验验证闭环构建等方面寻求突破。
【目的】 构建一种集成技术生命周期分析、多维测度体系与语义增强超网络节点嵌入的研究框架,系统量化技术融合演化特征,全面揭示技术融合趋势。【方法】 基于技术生命周期分析划分发展阶段,利用超网络方法构建时序技术融合网络;设计涵盖超网络整体、超边与节点三个层次的融合测度体系,系统分析融合演化特征;提出基于语义增强的超网络节点嵌入方法,挖掘技术潜在融合关系。【结果】 以全固态电池领域为例进行实证,结果表明该领域技术融合呈现从材料探索、性能优化到产业应用的阶段性演进,并识别出电池温度管理、高镍正极界面改性等高价值潜在融合方向。【局限】 仅基于IPC共现构建超网络,未纳入专利引证等关系,且细粒度技术要素挖掘不足。【结论】 所提框架能够揭示技术领域融合演化特征与潜在融合方向,为技术融合研究提供新视角。
【目的】 构建一套基于自然语言处理技术的隐私协议违规检测技术框架,以实现违规内容的自动化识别与法规语义解释。【方法】 首先梳理《信息安全技术 个人信息安全规范》(GB/T 35273-2020),提炼出19项隐私协议核心内容。在此基础上,融合文本分类、命名实体识别与大语言模型QLoRA微调技术,构建了一个从内容识别到违规判定的完整技术框架。【结果】 微调后的Gemma-2b模型在违规检测任务中表现优异,在数据集一上表现最佳,显著优于ChatGLM2-6b模型(F1值0.764 7 vs 0.373 5)。同时,Gemma-2b模型在生成合规性解释方面,BERTScore评估得分也优于ChatGLM2-6b(F1值0.805 4 vs 0.744 0),表明其解释质量更优。【局限】 现行标准的通用性导向限制了特定场景下的检测颗粒度,且模型输入长度限制影响上下文语义完整性。【结论】 本研究提出的技术框架能够快速识别隐私协议的核心内容并进行可解释的违规检测,增强了对隐私协议中相关法律法规落实情况的监督和监测能力。
【目的】 现有预训练模型在政务问题检索中普遍存在各向异性和领域泛化能力不足等问题,导致检索召回不全、匹配精准度不高。为此,本文提出细粒度的政务相似问题检索模型GovSQR。【方法】 GovSQR模型首先通过结构化的提示工程和少样本示例引导大模型生成任务适配的正负样本数据集,随后基于生成的三元组数据采用有监督SimCSE框架微调RoBERTa模型,同时设计动态加权掩码机制和去偏对比损失函数以降低假负样本对语义表征的干扰。【结果】 在深圳市政务问题数据集上的实验结果表明,GovSQR模型在P@1、R@3和MRR三项指标上分别达到0.966 0、0.981 1和0.972 9,优于InfoCSE、DiffCSE等主流对比学习模型。【局限】 数据生成过程易受幻觉干扰,人工核验成本较高,且针对语义复杂、表述模糊问题的有效性需要进一步验证。【结论】 通过数据增强和假负样本去偏,GovSQR模型能够学到更具判别性和均匀性的嵌入表示,显著提升了政务相似问题检索的准确性。
【目的】 提出一种基于句法结构和知识增强的双通道模型(SKE),以提升方面级情感分类的准确性。【方法】 SKE模型包括两个通道:一是BERT增强图网络(BEGN),利用BERT中间层的句法信息构建补充依存图,强化了图卷积网络对依存句法关系的建模;二是语义增强知识网络(SEKN),通过生成式模型生成外部知识,丰富句子的语义表示。两个通道的输出通过BiAffine解析器进行融合,实现了句法和语义信息的深度结合。【结果】 在Twitter、Laptop和Restaurant三个数据集上,与14个主流模型中最优的模型相比,SKE模型的准确率分别提高了4.05、3.62和1.11个百分点,Macro-F1分别提高了4.36、3.31和2.12个百分点。【局限】 仅在公开数据集上进行验证,并且在情感分析时仅结合文本信息,未涉及多模态信息。【结论】 SKE模型通过强化依存句法信息和引入外部语义知识,实现了句法和语义的双重增强,有效提升方面级情感分类准确率,在处理句法结构复杂和语义信息相对不足的句子时,具有特定的应用价值。
【目的】 针对大语言模型风险指令挖掘任务中存在的准确率不足、可解释性较弱等问题,提出一种智能体驱动的增强框架。【方法】 该框架集成了语言对齐、层级检测、双流解释和一致性验证4个关键模块。其中,语言对齐模块实现多语言输入的统一映射,层级检测模块实现多阶段风险分析,双流解释模块提供分析与决策依据,一致性验证模块提升处理复杂样本时的可靠性。【结果】 基于三个风险指令数据集的实验表明,该框架最高可将常用检测工具的准确率由54.75%提升至93.75%,在仅使用开源模型作为内核的情况下,检测准确率增幅也能超过20%。【局限】 框架推理效率有待提高,同时部分轻量级模型的结构化输出稳定性不足。【结论】 该框架能够有效为大语言模型风险指令挖掘提供通用、可解释且跨语言的增强方案。
【目的】 针对现有实体对齐方法对大规模知识图谱的结构信息和语义信息利用不足而导致对齐效果不佳的问题,提出一种基于嵌入增强和实体-关系感知的实体对齐模型ERAEA。【方法】 ERAEA模型通过生成实体不同的嵌入表示,利用注意力机制和双层改进的图卷积网络实现实体的嵌入增强,进一步通过实体与关系的相互映射将图结构数据的关系特征融合到实体特征中,得到增强的实体嵌入表示。【结果】 ERAEA模型在三个公开跨语言数据集上的平均Hits@1、Hits@10和MRR分别达到89.3%、97.2%和92.1%,高于所有基线模型。相比基线模型中的平均最优表现,Hits@1、Hits@10和MRR分别提高6.1、0.5和5.0个百分点。【局限】 模型在不同语言体系的实体对齐任务中,难以建立稳定跨语言映射关系。【结论】 通过嵌入增强和实体-关系感知模块能够充分学习实体的语义信息特征和结构信息,进而有效提升实体对齐任务的效果。