Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (1): 24-27    DOI: 10.11925/infotech.1003-3513.2014.01.04
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
面向文本挖掘的植物生长发育实体识别研究*
汪润, 何琳, 王东波, 黄水清, 范远标
南京农业大学信息科学技术学院 南京 210095
Research on Plant Growth and Development Stage Named Entity Recognition for Text Mining
Wang Run, He Lin, Wang Dongbo, Huang Shuiqing, Fan Yuanbiao
College of Information Science and Technology,Nanjing Agricultural University,Nanjing 210095,China
全文: PDF(471 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 【目的】 研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取。【应用背景】PDSE从本质上来说是一种命名实体。目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中。【方法】采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试。【结果】实验表明本文提出的混合策略能取得较高的准确率和召回率。【结论】本研究对生物学文本抽取具有一定的借鉴意义。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
汪润
何琳
王东波
黄水清
范远标
关键词 植物生长发育时期命名实体识别条件随机场特征选择    
Abstract:[Objective] This paper researches in the extraction that identifies plant growth and development stage entity from text. [Context] PDSE is a kind of named entity essentially. Named entities recognition has become one of most valuable basic technologies in Natural Language Processing field,which is used widely in many Natural Language Processing systems. [Methods] It adopts multiple strategies based on conditional random field and rules,with putting forward and realizing a method of CRF template,characteristic function and extraction rules for the features of plant growth and development stage entity. Also,it tests the extraction effect by articles from the PubMed database. [Results] The experiment shows that the proposed hybrid strategies can obtain high accuracy and recall rate. [Conclusions] This research has a certain significant reference for biology text extraction.
Key wordsPlant growth and development stage    Named entity recognition    CRF    Feature selection
收稿日期: 2014-02-14     
:  TP391  
基金资助:本文系国家社会科学基金“面向知识服务的科学数据组织与应用研究”(项目编号:13CTQ035)、中央高校基本科研业务费资助项目“面向qRT-PCR实验的内参基因挖掘技术研究”(项目编号:KYZ201159)和南京农业大学SRT计划项目“基于混和策略的植物生长发育时期识别”(项目编号:1219A11)的研究成果之一。
通讯作者: 通讯作者 何琳 E-mail:helin@njau.edu.cn   
作者简介: 作者贡献声明:何琳,黄水清:提出研究思路,设计研究方案;汪润:进行实验;范远标:数据采集和清洗;汪润,何琳:论文起草;王东波:最终版本修订及数据结果评价分析。
引用本文:   
汪润,何琳,王东波,黄水清,范远标. 面向文本挖掘的植物生长发育实体识别研究*[J]. 现代图书情报技术, 2014, 30(1): 24-27.
Wang Run,He Lin,Wang Dongbo,Huang Shuiqing,Fan Yuanbiao. Research on Plant Growth and Development Stage Named Entity Recognition for Text Mining. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.01.04.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.01.04
[1] 宗萍,施水才,王涛,等. 基于条件随机场的英文地理行政实体识别[J]. 现代图书情报技术,2009(2):51-55.(Zong Ping,Shi Shuicai,Wang Tao,et al. GPE-entity Recognition Based on Conditional Random Fields [J]. New Technology of Library and Information Service,2009(2):51-55.)
[2]周雅倩,郭以昆,黄萱菁,等. 基于最大熵方法的中英文基本名词短语识别[J]. 计算机研究与发展,2003,40(3):440-446.(Zhou Yaqian,Guo Yikun,Huang Xuanjing,et al. Chinese and English BaseNP Recognition Based on a Maximum Entropy Model[J]. Journal of Computer Research and Development,2003,40(3):440-446.)
[3]张朝胜,郭剑毅,线岩团,等. 基于条件随机场的英文产品命名实体识别[J]. 计算机工程与科学,2010,32(6):115-117.(Zhang Chaosheng,Guo Jianyi,Xian Yantuan,et al. Named Entity Recognition of the Products with English Based on Conditional Random Fields[J]. Computer Engineering and Science,2010,32(6):115-117.)
[4]Ferro L,Gerber L,Mani I,et al.TIDES 2005 Standard for the Annotation of Temporal Expressions[R]. MITRE,2005:1-65.
[5]ACE(Automatic Content Extraction) Chinese Annotation Guidelines for TIMEX2(Summary)[EB/OL]. [2013-12-19]. http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-TIMEX2-Guideline-Summary_v1.2.pdf.
[6]Saquete E,Martínez-Barco P. Grammar Specification for the Recognition of Temporal Expressions[C]. In:Proceedings of Machine Translation and Multilingual Applications in the New Millennium.2000.
[7]Schilder F,Habel C. From Temporal Expressions to Temporal Information:Semantic Tagging of News Messages[C]. In:Proceedings of the Workshop on Temporal and Spatial Information Processing(TASIP’01),Morristown,NJ. Stroudsburg:Association for Computational Linguistics,2001:Article No.9.
[8]Brill E. Transformation-based Error-driven Learning and Natural Language Processing:A Case Study in Part-of-Speech Tagging[J]. Computational Linguistics,1995,21(4):543-565.
[9]贺瑞芳,秦兵,潘越群,等. 基于启发式错误驱动学习的中文时间表达式识别[J]. 高技术通讯,2008,18(12):1258-1262.(He Ruifang,Qin Bing,Pan Yuequn,et al. Recognizing Chinese Time Expressions Based on Heuristic Error-driven Learning[J]. High Technology Letters,2008,18(12):1258-1262.)
[10]Hacioglu K,Chen Y,Douglas B. Automatic Time Expression Labeling for English and Chinese Text[C]. In:Proceedings of the 6th International Conference on Computational Linguis- tics and Intelligent Text Processing(CICLing’05). Berlin,Heidelberg:Springer-Verlag,2005:548-559.
[11]Ahn D D,Adafre S F,De Rijke M. Towards Task-based Temporal Extraction and Recognition[C]. In:Proceedings of Dagstuhl Workshop on Annotating,Extracting,and Reasoning about Time and Events. 2005.
[12]欧阳佑,李素建.条件随机域模型和实验分析[C]. 见:第三届学生计算语言学研讨会论文集,沈阳,辽宁,中国.中国中文信息学会,2006:134-139.(Ou Yangyou,Li Sujian. Conditional Random Fields for Temporal Expression Recognition[C]. In: Proceedings of the SWCL-2006, Shenyang, Liaoning Province, China.Chinese Information Association of China, 2006:134-139.)
[13]朱莎莎,刘宗田,付剑锋,等. 基于条件随机场的中文时间短语识别[J]. 计算机工程,2011,37(15):164-167.(Zhu Shasha,Liu Zongtian,Fu Jianfeng,et al. Chinese Temporal Phrase Recognition Based on Conditional Random Fields[J]. Computer Engineering,2011,37(15):164-167.)
[14]许旭阳,李弼程,张先飞,等. 基于条件随机场与自定义规则的时间表达式识别[J]. 情报学报,2011,30(10):1065-1071.(Xu Xuyang,Li Bicheng,Zhang Xianfei,et al. Recognition of Time Expressions Based on Conditional Random Fields and Rules[J]. Journal of the China Society for Scientific and Technical Information,2011,30(10):1065-1071.)
[15]孙镇,王惠临. 命名实体识别研究进展综述[J]. 现代图书情报技术,2010(6):42-47.(Sun Zhen,Wang Huilin. Overview on the Advance of the Research on Named Entity Recognition[J]. New Technology of Library and Information Service,2010(6):42-47.)
[16]Lafferty J D,McCallum A,Pereira F C N. Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In:Proceedings of the 18th International Conference on Machine Learning(ICML’01). San Francisco:Morgan Kaufmann Publishers Inc.,2001:282-289.
[17]CRF++:Yet Another CRF Toolkit[EB/OL]. [2013-07-15]. http://crfpp.googlecode.com/svn/trunk/doc/index.html? source =navbar.
[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[3] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[4] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[5] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[6] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[7] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[8] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[9] 范馨月,崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[10] 操玮,李灿,贺婷婷,朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[11] 李志鹏,李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[12] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[13] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[14] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[15] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn