Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (1): 37-46     https://doi.org/10.11925/infotech.2096-3467.2017.01.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
植物物种多样性语义知识抽取研究*
刘建华1,2(), 王颖1, 张智雄1, 李传席3
1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国长城资产管理股份有限公司 北京 100045
Extracting Semantic Knowledge from Plant Species Diversity Collections
Liu Jianhua1,2(), Wang Ying1, Zhang Zhixiong1, Li Chuanxi3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3China Great Wall Asset Management Co., Ltd, Beijing 100045, China
全文: PDF (4615 KB)   HTML ( 50
输出: BibTeX | EndNote (RIS)      
摘要 

目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘建华
王颖
张智雄
李传席
关键词 植物物种多样性植物物种知识抽取关系识别    
Abstract

[Objective]This paper aims to extract semantic knowledge from the biodiversity studies. [Methods] We proposed a new knowledge extraction framework focusing on species. It included various entities as well as the relationship among them. The new method was then examined with various specialized databases. [Results] The species-oriented knowledge extraction framework, could successfully retrieve semantic information from the target entities and the relations among them. This method expanded the scope of knowledge extraction practice in the biodiversity field. [Limitations] The recall and precision ratio of the new method was effected by the dictionaries and rules. More studies are needed to examine the semantic relationship among the named entities beyond co-occurrence, hierarchical and simple syntactic relations. [Conclusions] The proposed method expands the contents and methods of knowledge extraction in biodiversity research. It supports the semantic information retrieval and computation.

Key wordsPlant Species Diversity    Plant Species    Knowledge Extraction    Relation Extraction
收稿日期: 2016-04-14      出版日期: 2017-02-22
ZTFLH:  G250  
基金资助:*本文系国家“十二五”科技支撑计划项目“面向外文科技文献信息的知识组织体系建设与应用示范(STKOS)”的子课题“信息资源自动处理、智能检索与STKOS应用服务集成”(项目编号: 2011BAH10B05)和国家自然科学基金项目“基于语言网络的文本主题中心度计算”(项目编号: 61075047)的研究成果之一
引用本文:   
刘建华, 王颖, 张智雄, 李传席. 植物物种多样性语义知识抽取研究*[J]. 数据分析与知识发现, 2017, 1(1): 37-46.
Liu Jianhua,Wang Ying,Zhang Zhixiong,Li Chuanxi. Extracting Semantic Knowledge from Plant Species Diversity Collections. Data Analysis and Knowledge Discovery, 2017, 1(1): 37-46.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.01.05      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I1/37
  人工标引的层级示例
  植物物种多样性语义知识框架
  语义知识抽取框架
  知识单元实例样本的模式输出示例
  Parser解析生成的句法树[20]
  Parser解析生成的依存语法结果及说明
实体类型 数量 实体类型 数量
物种-属(Genus) 115 698 植物茎(plantStemForm) 1 983
物种-科(family) 25 332 省(province) 1 845
习性(habit) 13 510 花期(plantFlowerTime) 1 773
花颜色(plantFlowerColor) 12 649 植物根类型(plantRootType) 1 725
实体类型 数量 实体类型 数量
生态环境(cultivatedHabitat) 12 277 化合物(chemicalCompound) 1 637
植物茎类型(plantStemType) 10 306 授粉系统(plantPollinationSystem) 1 509
物种-种(species) 9 478 基因(gene) 1 270
寿命(longevity) 8 233 国家(country) 1 227
植物果实类型(plantFruitType) 6 489 物种-目(order) 1 088
植物雌蕊融合(plantGynoeciumCarpelFusion) 4 875 花对称性(plantFlowerSymmetry) 1 043
植物雄蕊排列(planAndroeciumStamenArrangement) 4 793 化学元素(ChemicalElement) 736
植物叶规格(plantLeafArrangement) 3 908 实验材料与工具(Tool) 722
植物叶形状(plantLeafShape) 3 609 物理环境(PhysicalEnvironment) 717
植物叶缘(plantLeafMargin) 3 268 植物花被(plantFlowerPerianthForm) 621
花序形态(plantInflorescenceForm) 3 268 植物叶结构(plantLeafStructure) 510
植物叶面(plantLeafSurface) 2 859 器官(Organ) 780
花结构数量(plantNumbersOfFloralStructure) 2 815 机构(Organization) 323
植物叶部(plantLeafDivision) 2 615 培养环境(culturedHabitat) 264
无确定类型的主题词(Term) 2 482 物种-门(phylum) 252
光合作用(photosynthesis) 2 282 植物叶(plantLeaf) 244
植物叶性(plantFlowerSexuality) 2 222 物种-纲(class) 153
植物雄蕊类型(plantAndroeciumStamenType) 2 152 植物根结构(plantRootStructure) 127
  从实验数据中抽取的主要知识单元及物种属性实例分布
  植物物种多样性领域SPO语法关系部分抽取结果
  基于本体概念或实体的知识浏览、检索与统计分析功能
  基于语义知识抽取的单篇文章共现关系知识图
[1] Thessen A E, Cui H, Mozzherin D.Applications of Natural Language Processing in Biodiversity Science[J]. Advances in Bioinformatics, 2012. DOI: 10.1155/2012/391574.
doi: 10.1155/2012/391574 pmid: 22685456
[2] Naderi N, Kappler T, Baker C J, et al.OrganismTagger: Detection, Normalization and Grounding of Organism Entities in Biomedical Documents[J]. Bioinformatics, 2011, 27(19): 2721-2729.
doi: 10.1093/bioinformatics/btr452
[3] Species [EB/OL]. [2016-04-12]. .
[4] Gerner M, Nenadic G, Bergman C M.LINNAEUS: A Species Name Identification System for Biomedical Literature[J]. BMC Bioinformatics, 2010. DOI: 10.1186/1471-2105-11-85.
doi: 10.1186/1471-2105-11-85 pmid: 20149233
[5] The NCBI Taxonomy Homepage [EB/OL]. [2016-04-12]. .
[6] Page R D M. BioNames: Linking Taxonomy, Texts, and Trees [OL]. .
[7] Species 2000 [EB/OL]. [2016-04-12]. .
[8] Akella L M, Norton C N, Miller H.NetiNeti: D1iscovery of Scientific Names from Text Using Machine Learning Methods[J]. BMC Bioinformatics, 2012. DOI: 10.1186/1471- 2105-13-211.
doi: 10.1080/00207160.2012.742189
[9] The OrganismTagger System [EB/OL]. [2016-04-12]. .
[10] Koning D, Sarlar I N, Moritz T.Taxongrab: Extracting Taxonomic Names from Text[J]. Biodiversity Informatics, 2005, 2: 79-82.
doi: 10.17161/bi.v2i0.17
[11] Taylor A.Extracting Knowledge from Biological Descriptions[C]//Proceedings of the 2nd International Conference on Building and Sharing Very Large-Scale Knowledge Bases. 1995: 114-119.
[12] Tang X, Heidorn P B.Using Automatically Extracted Information in Species Page Retrieval[C]//Proceedings of TDWG 2007. 2007.
[13] Cui H.CharaParser for Fine-grained Semantic Annotation of Organism Morphological Descriptions[J]. Journal of the Society for Information Science and Technology, 2012, 63(4): 738-754.
doi: 10.1002/asi.22618
[14] 段宇锋, 黄思思. 中文植物物种多样性描述文本的信息抽取研究[J]. 现代图书情报技术, 2016(1): 87-96.
[14] (Duan Yufeng, Huang Sisi.Information Extraction from Chinese Plant Species Diversity Description Text[J]. New Technology of Library and Information Service, 2016(1): 87-96.)
[15] Li C, Liakata M, Rebholz-Schuhmann D.Biological Network Extraction from Scientific Literature: State of the Art and Challenges[J]. Briefings in Bioinformatics, 2013. DOI: 10.1093/bib/bbt006.
doi: 10.1093/bib/bbt006 pmid: 23434632
[16] Skusa A, Rüegg A, Köhler J.Extraction of Biological Interaction Networks from Scientific Literature[J]. Briefings in Bioinformatics, 2005, 6(3): 263-276.
[17] 白光祖, 何远标, 马建霞, 等. 利用小样本量机器学习实现学术文摘结构的自动识别[J]. 现代图书情报技术, 2014(7-8): 34-40.
[17] (Bai Guangzu, He Yuanbiao, Ma Jianxia, et al. Application of Machine Learning with Limited Corpus to Identify Structure of Scientific Abstracts Automatically, 2014 (7-8): 34-40.)
[18] 许哲平, 崔金钟, 覃海宁, 等. 中国植物物种多样性 e-Science 平台建设构想[J]. 植物物种多样性, 2010, 18(5): 480-488.
[18] (Xu Zheping, Cui Jinzhong, Qin Haining, et al.On the Architecture of Biodiversity e-Science Infrastructure in China[J]. Biodiversity Science, 2010, 18(5): 480-488.)
[19] Jiang W, Guan Y, Wang X L.Improving Feature Extraction in Named Entity Recognition Based on Maximum Entropy Model[C]//Proceedings of the 5th International Conference on Machine Learning and Cybernetics. 2006: 2630-2635.
[20] De Marneffe M-C, Manning C D. Stanford Typed Dependencies Manual [OL]. .
[21] Hearst M A.Automatic Acquisition of Hyponyms from Large Text Corpora[C]// Proceedings of the 14th International Conference on Computational Linguistics, 1992.
[1] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[2] 徐浩,朱学芳,章成志,江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 *[J]. 数据分析与知识发现, 2019, 3(10): 29-36.
[3] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[4] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[5] 段宇锋, 黄思思. 基于BFO构建中文植物物种多样性领域本体的研究[J]. 现代图书情报技术, 2015, 31(12): 72-79.
[6] 化柏林. 针对中文学术文献的情报方法术语抽取[J]. 现代图书情报技术, 2013, (6): 68-75.
[7] 刘建华,张智雄. 基于Stanford Parser的实体间关系识别[J]. 现代图书情报技术, 2009, 25(5): 1-5.
[8] 姜彩红,乔晓东,朱礼军. 基于本体的专利摘要知识抽取*[J]. 现代图书情报技术, 2009, 3(2): 23-28.
[9] 张智雄,吴振新,刘建华,徐健,洪娜,赵琦. 当前知识抽取的主要技术方法解析*[J]. 现代图书情报技术, 2008, 24(8): 2-11.
[10] 周宁,王淼. 基于MUDs的面向特定领域的知识管理模型研究[J]. 现代图书情报技术, 2008, 24(5): 33-38.
[11] 化柏林 . 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007, 2(8): 48-51.
[12] 化柏林,赵亮. 知识抽取中的嵌套向量分词技术[J]. 现代图书情报技术, 2007, 2(7): 50-53.
[13] 化柏林 . 基于NLP的知识抽取系统架构研究*[J]. 现代图书情报技术, 2007, 2(10): 38-41.
[14] 张晗,路振宇,崔雷 . 利用关联规则对医学文本数据库进行知识抽取的尝试*——以四种抗肿瘤药为例[J]. 现代图书情报技术, 2006, 1(9): 49-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn