Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (1): 87-96     https://doi.org/10.11925/infotech.1003-3513.2016.01.13
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
中文植物物种多样性描述文本的信息抽取研究*
段宇锋(),黄思思
华东师范大学商学院 上海 200241
Information Extraction from Chinese Plant Species Diversity Description Text
Yufeng Duan(),Sisi Huang
Business School, East China Normal University, Shanghai 200241, China
全文: PDF (764 KB)   HTML ( 51
输出: BibTeX | EndNote (RIS)      
摘要 【目的】实现中文植物物种多样性描述文本中信息的抽取。【方法】以中文植物物种多样性本体为支撑, 采取语段、语句、概念逐级筛选和标注的策略, 依据规则抽取描述文本中的信息。【结果】以包含4 734个信息点的样本测试, 信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85。【局限】 针对目前未能准确抽取的表述, 进一步完善规则集。【结论】研究方案能有效地实现中文植物物种多样性描述文本的信息抽取。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
段宇锋
黄思思
关键词 信息抽取植物物种多样性描述文本中文信息处理本体    
Abstract

[Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to solve the problems on extracting information from description text, the rule set should be improved in the future. [Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity description text effectively.

Key wordsInformation extraction    Plant species diversity description text    Chinese information processing    Ontology
收稿日期: 2015-09-14      出版日期: 2016-02-04
基金资助:*本文系国家社会科学基金一般项目“基于无监督语义标注的网络中文学术信息抽取研究”(项目编号:11BTQ024)的研究成果之一
引用本文:   
段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
Yufeng Duan,Sisi Huang. Information Extraction from Chinese Plant Species Diversity Description Text. New Technology of Library and Information Service, 2016, 32(1): 87-96.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.01.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2016/V32/I1/87
[1] BHL. Biodiversity Heritage Library [EB/OL]. [2015-09-27]. .
[2] Thessen A E, Cui H, Mozzherin D. Applications of Natural Language Processing in Biodiversity Science [J]. Advances in Bioinformatics, 2012: Article ID 391574. doi: 10.1155/2012/ 391574.
[3] Vanel J M. Worldwide Botanical Knowledge Base [EB/OL]. [2011-10-11]. .
[4] 郑家恒, 菅小艳. 农作物信息抽取系统的设计与实现[J]. 计算机工程, 2006, 32(7): 197-198, 220.
[4] (Zheng Jiaheng, Jian Xiaoyan.Design and Realization of the System of Farm Crop Information Extraction[J]. Computer Engineering, 2006, 32(7): 197-198, 220.)
[5] Cui H, Heidorn P.The Reusability of Induced Knowledge for Automatic Semantic Markup of Taxonomic Descriptions[J]. Journal of the American Society for Information Science and Technology. 2007, 58(1): 133-149.
[6] 段宇锋, 黑珍珍, 鞠菲, 等. 基于自主学习规则的中文物种描述文本的语义标注研究[J]. 现代图书情报技术, 2012(5): 41-47.
[6] (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al.Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules[J]. New Technology of Library and Information Service, 2012(5): 41-47.)
[7] 段宇锋, 黑珍珍, 鞠菲, 等. 基于贝叶斯分类的中文物种描述文本的语义标注研究[J]. 情报学报, 2012, 31(8): 805-812.
[7] (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al.Semantic Annotation of Species Description Text in Chinese Literature by Naïve Bayes Classifier[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8): 805-812.)
[8] 段宇锋, 朱雯晶, 陈巧, 等. 朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究[J]. 现代图书情报技术, 2014(5): 83-89.
[8] (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al.Semantic Annotation of Species Description Text in Chinese by Combining Naïve Bayes Algorithm with Bootstrapping Method[J]. New Technology of Library and Information Service, 2014(5): 83-89.)
[9] Taylor A.Extracting Knowledge from Biological Descriptions [C]. In: Proceedings of the 2nd International Conference on Building and Sharing Very Large-Scale Knowledge Bases. 1995: 114-119.
[10] Wood M M, Lydon S J, Tablan V, et al.Using Parallel Texts to Improve Recall in IE [C]. In: Proceedings of Recent Advances in Natural Language Processing (RANLP’03). 2003: 505-512.
[11] Tang X, Heidorn P B. Using Automatically Extracted Information in Species Page Retrieval [OL]. [2011-08-10]. .
[12] Soderland S.Learning Information Extraction Rules for Semi-Structured and Free Text[J]. Machine Learning, 1999, 34(1-3): 233-272.
[13] Abascal R, Sanchez J A.X-tract: Structure Extraction from Botanical Textual Descriptions [C]. In: Proceeding of the String Processing & Information Retrieval Symposium & International Workshop on Groupware.1999: 2-7.
[14] Diederich J, Frotuner R, Milton J. Computer-assisted Data Extraction from the Taxonomical Literature [OL]. [2011- 08-15]. .
[15] Cui H.CharaParser for Fine-grained Semantic Annotation of Organism Morphological Descriptions[J]. Journal of the American Society for Information Science and Technology, 2012, 63(4): 738-754.
[16] Cui H, Singaram S, Janning A.Combine Unsupervised Learning and Heuristic Rules to Annotate Morphological Characters[J]. Proceedings of the American Society for Information Science and Technology, 2011, 48(1): 1-9.
[17] 沙丽华. 面向领域文档的语义标注方法研究[D]. 长春: 吉林大学, 2009.
[17] (Sha Lihua.Research on Semantic Annotation for Domain Documents [D]. Changchun: Jilin University, 2009.)
[18] 石静. 基于本体的植物信息抽取与分析研究[D]. 杨凌: 西北农林科技大学, 2010.
[18] (Shi Jing.Information Extraction and Analysis Based on Plant Ontology [D]. Yangling: Northwest Agriculture and Foresty University, 2010.)
[19] Gruber T R.Toward Principles for the Design of Ontologies Used for Knowledge Sharing[J]. International Journal of Human-Computer Studies, 1995, 43(5-6): 907-928.
[20] 向阳, 王敏, 马强. 基于Jena的本体构建方法研究[J]. 计算机工程, 2007, 33(14): 59-61.
[20] (Xiang Yang, Wang Min, Ma Qiang.Research on Jena-based Ontology Building[J]. Computer Engineering, 2007, 33(14): 59-61.)
[21] 段宇锋, 朱雯晶, 陈巧, 等. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015(4): 41-49.
[21] (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al.The Study on Out-of-Vocabulary Identification on a Model Based on the Combination of CRFs and Domain Ontology Elements Set[J]. New Technology of Library and Information Service, 2015(4): 41-49.)
[22] 中国植物志编辑委员会. 中国植物志[DB/OL]. [2007-09-28]. .
[22] (Flora of China Editorial Committee. Flora of China [DB/OL]. [2007-09-28].
[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[3] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[4] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[5] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[6] 邓诗琦,洪亮. 面向智能应用的领域本体构建研究*——以反电话诈骗领域为例[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[7] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8] 高广尚. 用户画像构建方法研究综述*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[9] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[10] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[11] 何有世, 何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[12] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[13] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[14] 庞贝贝, 苟娟琼, 穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[15] 丁晟春, 刘梦露, 傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn