Please wait a minute...
Advanced Search
数据分析与知识发现  2024, Vol. 8 Issue (1): 30-39     https://doi.org/10.11925/infotech.2096-3467.2023.0867
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
ULEO:表示合成实验规程的实验操作统一语言*
付芸1,2,朱丽雅1,李丹1,孙蒙鸽1,2,张建锋3,刘细文1,2()
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院信息资源管理系 北京 100190
3中国科学院过程工程研究所 北京 100190
ULEO: Unified Language of Experiment Operations for Representation of Synthesis Protocols
Fu Yun1,2,Zhu Liya1,Li Dan1,Sun Mengge1,2,Zhang Jianfeng3,Liu Xiwen1,2()
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
3Institute of Process Engineering, Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (1769 KB)   HTML ( 25
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 面对智能科研与科学机器人对高质量实验规程数据的需求,解决合成实验规程中的实验操作词统一表示问题。【方法】 综合利用数据和专家知识协同驱动的方式,从合成相关的论文与专利文本中识别并标准化实验操作词。实验操作词识别主要选用较为先进的开源大模型ChatGLM2-6B,实验操作词标准化则混合应用Wu-Palmer和余弦相似度,辅以专家经验知识判别分类的准确性。【结果】 分别获取149个无机合成实验操作词和141个有机合成实验操作词,两者交集124个词。经判定在两类合成实验中分别出现的操作词中多数并不具备鲜明的类别特色,因此可取两类合成实验操作词的并集,共计166个,用于统一表示有机、无机及其杂化合成实验操作。【局限】 仅使用基础的提示工程来激发大模型识别实验操作词,准确率有待提升;所用的数据主要源于当前免费公开的数据集,不够全面、丰富;仅关注合成、工程和基础步骤中涉及的操作词,未涉及动态、分析与命名反应中的操作词。【结论】 本文构建一套表示合成实验操作的统一语言,用于表示有机、无机及其杂化合成反应中的实验操作,不同类型的合成实验操作词在表示上差异不大,在使用频次和倾向上确有不同,今后可据此优先选择研制科学机器人相应的实验操作功能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
付芸
朱丽雅
李丹
孙蒙鸽
张建锋
刘细文
关键词 实验操作统一语言智能科研合成实验规程实验操作科学机器人    
Abstract

[Objective] This study addresses the unified representation issue of experimental operation verbs in synthetic experiment protocols, which provides high-quality experimental protocol data for science intelligence and robotics. [Methods] We utilized a collaborative approach driven by data and expert knowledge to identify and standardize experimental operation verbs from literature and patent texts related to synthesis. First, we used advanced open-source large models like ChatGLM2-6B to identify experimental operation verbs. Then, we combined Wu-Palmer and cosine similarity to standardize these verbs. Finally, we assessed their classification accuracy with expert knowledge. [Results] The study identified 149 operation verbs for inorganic synthetic experiments and 141 operation verbs for organic synthetic experiments. Expert judgment revealed that many of the 124 operation terms appearing in both groups do not possess distinct category characteristics. Therefore, we merged the two categories to have 166 experimental operation verbs representing the operations in organic, inorganic, and hybrid synthesis experiments. [Limitations] The study only employed basic prompt engineering techniques to direct the large model to recognize experimental operation verbs from publicly accessible datasets. This study focused on operation terms involved in synthesis, engineering, and basic steps without considering operation terms in dynamic, analytical, and name reactions. [Conclusions] This study establishes a unified language for representing experimental operations in synthesis, applicable to organic, inorganic, and hybrid synthesis reactions. It could inform the future development of scientific robotics experiments.

Key wordsUnified Language of Experiment Operations    AI for Science    Synthesis Experimental Protocols    Experiment Operations    Science Robotics
收稿日期: 2023-09-04      出版日期: 2024-02-06
ZTFLH:  G35  
  N19  
基金资助:*国家自然科学基金重点项目(72234005)
通讯作者: 刘细文,ORCID:0000-0003-0820-3622,E-mail:liuxw@mail.las.ac.cn。   
引用本文:   
付芸, 朱丽雅, 李丹, 孙蒙鸽, 张建锋, 刘细文. ULEO:表示合成实验规程的实验操作统一语言*[J]. 数据分析与知识发现, 2024, 8(1): 30-39.
Fu Yun, Zhu Liya, Li Dan, Sun Mengge, Zhang Jianfeng, Liu Xiwen. ULEO: Unified Language of Experiment Operations for Representation of Synthesis Protocols. Data Analysis and Knowledge Discovery, 2024, 8(1): 30-39.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2023.0867      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2024/V8/I1/30
数据集间重叠
论文篇数
液态
合成
固态
合成
溶胶-
凝胶合成
金纳米粒子
合成
液态合成 29 881 - - -
固态合成 167 15 144 - -
溶胶-凝胶合成 462 719 7 579 -
金纳米粒子合成 135 0 0 5 154
去重后的论文篇数 56 302
Table 1  去重后的论文数量
数据集 一条数据的起始标识 实验规程标识 人工设置的实验操作类标识 原文中使用的实验操作词标识
液态合成 doi operations type string
固态合成 doi operations type string
溶胶-凝胶合成 targets_string operations type token
金纳米粒子合成 targets_string synth_actions type string
procedure_graph op_type op_string
Table 2  实验操作字段的表示形式
Fig.1  实验操作描述示例
Fig.2  构建合成实验操作统一语言分析框架
步骤类型 步骤描述 实验操作词 操作词描述 来源
动态步骤* 基于反馈执行的步骤 HeatUntilComplete 加热直至指定温度 基础、工程、合成和分析步骤
分析步骤* 执行分析中的非合成步骤 RunNMR 使用核磁共振波谱法 基础、工程步骤
命名反应步骤* 常见的命名反应 SuzukiCoupling Suzuki偶联反应 基础、工程、合成、命名反应步骤
合成步骤 常见的合成过程 Evaporate 在给定温度和压力下,在给定时间内蒸发旋转蒸发器的内容物 基础、工程、合成步骤
工程步骤 常见的低级处理 HeatChillToTemp 加热/冷却容器至指定温度,并保持加热器/冷却器打开 基础、工程步骤
基础步骤 编译中产生的与设备相关的直接可执行步骤 CChillerSetTemp 为冷凝器设置温度 -
Table 3  实验步骤及操作词示例
Fig.3  ChemicalTagger与ChatGLM2-6B使用示例
Fig.4  ChatGLM2-6B使用示例
Fig.5  实验操作词标准化
无机合成实验操作词 有机合成实验操作词
press peptize flocculate start alkylate
fire polish sterilize check ionize
sonicate decarbonate sulfurize compare deionize
ground passivate drain catalyze liquefy
dialyze nitride siphon weigh saponify
autoclave oxygenate graphitize thicken graft
etch densify nebulize characterize demineralize
carbonize gelatinize plasticize acetylate halogenate
hydrate - - accumulate -
Table 4  仅在无机或有机合成实验中的操作词
Fig.6  实验操作词在无机和有机中的使用倾向差异
Fig.7  前20%的无机合成实验常用操作词
Fig.8  前20%的有机合成实验常用操作词
Fig.9  前20%的无机合成实验使用倾向词
Fig.10  前20%的有机合成实验使用倾向词
[1] Coley C W, Thomas D A, Lummiss J A M, et al. A Robotic Platform for Flow Synthesis of Organic Compounds Informed by AI Planning[J]. Science, 2019, 365(6453): eaax1566.
[2] Steiner S, Wolf J, Glatzel S, et al. Organic Synthesis in a Modular Robotic System Driven by a Chemical Programming Language[J]. Science, 2019, 363(6423): eaav2211.
[3] Burger B, Maffettone P M, Gusev V V, et al. A Mobile Robotic Chemist[J]. Nature, 2020, 583(7815): 237-241.
doi: 10.1038/s41586-020-2442-2
[4] Zhu Q, Zhang F, Huang Y, et al. An All-round AI-Chemist with a Scientific Mind[J]. National Science Review, 2022, 9(10):nwac190.
doi: 10.1093/nsr/nwac190
[5] Jiang Y, Salley D, Sharma A, et al. An Artificial Intelligence Enabled Chemical Synthesis Robot for Exploration and Optimization of Nanomaterials[J]. Science Advances, 2022, 8(40): eabo2626.
[6] Zhao H, Chen W, Huang H, et al. A Robotic Platform for the Synthesis of Colloidal Nanocrystals[J]. Nature Synthesis, 2023, 2(6): 505-514.
doi: 10.1038/s44160-023-00250-5
[7] 付芸, 刘细文, 朱丽雅, 等. 实验规程的过程级语义表示研究综述[J]. 数据分析与知识发现, 2023, 7(8):1-16.
[7] (Fu Yun, Liu Xiwen, Zhu Liya, et al. Review of Semantic Representation of Experimental Protocols at Process-Level[J]. Data Analysis and Knowledge Discovery, 2023, 7(8):1-16 )
[8] Vaucher A C, Zipoli F, Geluykens J, et al. Automated Extraction of Chemical Synthesis Actions from Experimental Procedures[J]. Nature Communications, 2020, 11(1): Article No.3601.
[9] Mehr S H M, Craven M, Leonov A I, et al. A Universal System for Digitization and Automatic Execution of the Chemical Synthesis Literature[J]. Science, 2020, 370(6512): 101-108.
doi: 10.1126/science.abc2986 pmid: 33004517
[10] Hammer A J S, Leonov A I, Bell N L, et al. Chemputation and the Standardization of Chemical Informatics[J]. JACS Au, 2021, 1(10): 1572-1587.
doi: 10.1021/jacsau.1c00303 pmid: 34723260
[11] Kim E, Jensen Z, Van Grootel A, et al. Inorganic Materials Synthesis Planning with Literature-Trained Neural Networks[J]. Journal of Chemical Information and Modeling, 2020, 60(3): 1194-1201.
doi: 10.1021/acs.jcim.9b00995 pmid: 31909619
[12] Wang Z, Cruse K, Fei Y, et al. ULSA: Unified Language of Synthesis Actions for the Representation of Inorganic Synthesis Protocols[J]. Digital Discovery, 2022, 1(3): 313-324.
doi: 10.1039/D1DD00034A
[13] Kononova O, Huo H, He T, et al. Text-mined Dataset of Inorganic Materials Synthesis Recipes[J]. Scientific Data, 2019, 6: Article No. 203.
[14] Wang Z, Kononova O, Cruse K, et al. Dataset of Solution-based Inorganic Materials Synthesis Procedures Extracted from the Scientific Literature[J]. Scientific Data, 2022, 9: Article No.231.
[15] Cruse K, Trewartha A, Lee S, et al. Text-mined Dataset of Gold Nanoparticle Synthesis Procedures, Morphologies, and Size Entities[J]. Scientific Data, 2022, 9: Article No.234.
[16] Huo H, Rong Z, Kononova O, et al. Semi-supervised Machine-learning Classification of Materials Synthesis Procedures[J]. npj Computational Materials, 2019, 5: Article No.62.
[17] Kim E, Huang K, Kononova O, et al. Distilling a Materials Synthesis Ontology[J]. Matter, 2019, 1(1): 8-12.
doi: 10.1016/j.matt.2019.05.011
[18] 付芸, 朱丽雅, 韩涛, 等. 实验规程数据化研究与建设趋势分析[J/OL]. 信息资源管理学报. https://link.cnki.net/urlid/42.1812.G2.20240128.2226.002.
[18] (Fu Yun, Zhu Liya, Han Tao, et al. Trends Analysis of Experimental Protocol Datafication on Research and Construction[J/OL]. Journal of Information Resources Management. https://link.cnki.net/urlid/42.1812.G2.20240128.2226.002.)
[19] Lowe D M. Extraction of Chemical Structures and Reactions from the Literature[D]. University of Cambridge, 2012.
[20] Hawizy L, Jessop D M, Adams N, et al. ChemicalTagger: A Tool for Semantic Text-mining in Chemistry[J]. Journal of Cheminformatics, 2011, 3: Article No.17.
[21] Zeng A, Liu X, Du Z, et al. GLM-130B: An Open Bilingual Pre-trained Model[OL]. arXiv Preprint, arXiv:2210.02414.
[22] Kojima T, Gu S S, Reid M, et al. Large Language Models are Zero-Shot Reasoners[OL]. arXiv Preprint, arXiv:2205.11916.
[23] Zheng C, Liu Z, Xie E, et al. Progressive-Hint Prompting Improves Reasoning in Large Language Modelsc[OL]. arXiv Preprint, arXiv:2304.09797.
[24] Wu Z, Palmer M. Verb Semantics and Lexical Selection[C]// Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. 1994:133-138.
[25] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing. 2013:3111-3119.
[26] Soldatova L N, Nadis D, King R D, et al. EXACT2: The Semantics of Biomedical Protocols[J]. BMC Bioinformatics, 2014, 15(Suppl14): Article No.S5.
[1] 胡忠义, 税典程, 吴江. 基于ERNIE和DPCNN的科技文献摘要结构要素识别*[J]. 数据分析与知识发现, 2024, 8(1): 125-144.
[2] 李雪思, 张智雄, 王宇飞, 刘熠. 领域知识演化分析方法综述*[J]. 数据分析与知识发现, 2024, 8(1): 1-15.
[3] 沈凌云, 乐小虬. 文本神经语义解析方法研究进展[J]. 数据分析与知识发现, 2023, 7(12): 1-21.
[4] 操玮, 廖臣悦, 张福伟. 跨市场跨来源情感分析驱动的人民币汇率预测研究*[J]. 数据分析与知识发现, 2023, 7(12): 75-87.
[5] 吕学强, 杜一凡, 张乐, 潘慧萍, 田驰. GKTR:一种融合图卷积拓扑特征和关键词特征的工程咨询报告检索模型*[J]. 数据分析与知识发现, 2023, 7(12): 155-163.
[6] 魏建香, 陆谦, 韩普, 黄卫东. 基于多语义信息融合的事件检测模型*[J]. 数据分析与知识发现, 2023, 7(12): 64-74.
[7] 李合龙, 任昌松, 柳欣茹, 汪存华. 金融市场文本情绪研究综述*[J]. 数据分析与知识发现, 2023, 7(12): 22-39.
[8] 王永, 陈俊谕, 刘岽, 邓江洲. 融合物品受众特征的深度学习推荐模型*[J]. 数据分析与知识发现, 2023, 7(12): 114-124.
[9] 吴旭旭, 陈鹏, 江欢. 基于多特征融合的微博细粒度情感分析*[J]. 数据分析与知识发现, 2023, 7(12): 102-113.
[10] 赖宇斌, 陈燕, 胡小春, 黄欣. 基于提示嵌入的突发公共卫生事件微博文本情感分析*[J]. 数据分析与知识发现, 2023, 7(11): 46-55.
[11] 杨茹芸, 马静. 一种融合知识与Res-ViT的特征增强多模态情感识别模型*[J]. 数据分析与知识发现, 2023, 7(11): 14-25.
[12] 曾子明, 张瑜. 基于数据增强和多任务学习的突发公共卫生事件谣言识别研究*[J]. 数据分析与知识发现, 2023, 7(11): 56-67.
[13] 翟羽佳, 周睿, 李岩, 毛志刚. 科研人员跨学科性与个体学术影响力的因果效应分析*[J]. 数据分析与知识发现, 2023, 7(11): 140-157.
[14] 高浩鑫, 孙利娟, 吴京宸, 高宇童, 吴旭. 基于异构图卷积网络的网络社区敏感文本分类模型*[J]. 数据分析与知识发现, 2023, 7(11): 26-36.
[15] 林哲, 陈平华. 基于块注意力机制和Involution的文本情感分析模型*[J]. 数据分析与知识发现, 2023, 7(11): 37-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn