Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. 28 Issue (5): 41-47    DOI: 10.11925/infotech.1003-3513.2012.05.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于自主学习规则的中文物种描述文本的语义标注研究
段宇锋1, 黑珍珍1, 鞠菲1, 崔红2
1. 华东师范大学商学院 上海 200241;
2. 美国亚利桑那大学图书馆学与信息资源学院 图森 85719
Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules
Duan Yufeng1, Hei Zhenzhen1, Ju Fei1, Cui Hong2
1. Business School, East China Normal University, Shanghai 200241, China;
2. School of Information Resource & Library Science, University of Arizona, Tucson 85719, USA
全文: PDF(953 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
段宇锋
黑珍珍
鞠菲
崔红
关键词 规则先导词物种描述文本语义标注    
Abstract:This paper uses the algorithm of auto-learning rules combining with leading words to implement the semantic markup of species description text in Chinese with the data set of 1 000 documents collected from Flora of China randomly. Experimental results indicate that the whole markup efficiency (the values of F) of rule-based algorithm, which is designed by the study, generally reaches 0.930, and most elements are in the range of 0.724-0.964. Therefore, this algorithm is better than Naive Bayesian categorization algorithm, and it is also proved that leading words are positive for optimizing the algorithm.
Key wordsRules    Leading words    Species description text    Semantic markup
收稿日期: 2012-03-26     
: 

G350

 
基金资助:

本文系教育部人文社会科学青年项目“基于深度语义标注的网络中文学术信息抽取研究”(项目编号:10YJC870004)的研究成果之一。

引用本文:   
段宇锋, 黑珍珍, 鞠菲, 崔红. 基于自主学习规则的中文物种描述文本的语义标注研究[J]. 现代图书情报技术, 2012, 28(5): 41-47.
Duan Yufeng, Hei Zhenzhen, Ju Fei, Cui Hong. Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2012.05.06.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.05.06
[1] Taylor A. Extracting Knowledge from Biological Descriptions[C]. In: Proceedings of the 2nd International Conference on Building and Sharing Very Large-Scale Knowledge Bases. 1995:114-119.

[2] Vanel J M. Worldwide Botanical Knowledge Base[EB/OL]. [2011-10-11]. http://wwbota.free.fr/.

[3] Wood M M, Lydon S J, Tablan V, et al. Using Parallel Texts to Improve Recall in IE[C]. In: Proceedings of International Conference on Recent Advances in Natural Language Processing (RANLP).Amsterdam: John Benjamins, 2004:70-77.

[4] 罗贝,吴洁,曹存根,等. 从文本中获取植物知识方法的研究[J]. 计算机科学 ,2005,32(10):6-13.(Luo Bei, Wu Jie, Cao Cungen,et al. Botanical Knowledge Acquisition from Text[J]. Computer Science, 2005,32(10):6-13.)

[5] 沙丽华. 面向领域文档的语义标注方法研究[D]. 长春:吉林大学,2009.(Sha Lihua. Research on Semantic Annotation for Domain Documents[D]. Changchun: Jilin University,2009.)

[6] 石静. 基于本体的植物信息抽取与分析研究[D]. 西安:西北农林科技大学,2010. (Shi Jing. Information Extraction and Analysis Based on Plant Ontology[D]. Xi'an: Northwest Agriculture and Foresty University, 2010.)

[7] Sautter G, Bohm K, Agosti D. A Combining Approach to Find all Taxon Names[J]. Biodiversity Informatics,2006(3):46-58.

[8] Tang X Y, Heidorn P B. Using Automatically Extracted Information in Species Page Retrieval[EB/OL]. [2011-08-10]. http://www.tdwg.org/proceedings/article/view/195/.

[9] Soderland S. Learning Information Extraction Rules for Semi-Structured and Free Text[J]. Machine Learning, 1999, 34 (1-3): 233-272.

[10] 郑家恒,菅小艳. 农作物信息抽取系统的设计与实现[J]. 计算机工程 ,2006,32(7):197-198,220.(Zheng Jiaheng, Jian Xiaoyan. Design and Realization of the System of Farm Crop Information Extraction[J]. Computer Engineering, 2006, 32(7):197-198,220.)

[11] Cui H, Heidorn P B. The Reusability of Induced Knowledge for Automatic Semantic Markup of Taxonomic Descriptions[J]. Journal of the American Society for Information Science and Technology, 2007, 58(1): 133-149.

[12] Cui H, Boufford D, Selden P. Semantic Annotation of Biosystematics Literature Without Training Examples[J]. Journal of the American Society of Information Science and Technology, 2010, 61 (3): 522-542.

[13] Cui H. The XML Schema for MARTT[EB/OL]. [2012-08-08]. http://publish.uwo.ca/~hcui7/research/xmlschema.xsd.

[14] 中国植物志编辑委员会. 中国植物志[M]. 北京:科学出版社,1959.(Flora of China Editorial Committee. Flora of China [M]. Beijing: Science Press, 1959.)
[1] 张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[2] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[3] 何跃,王爱欣,丰月,王莉. 基于关联规则的门诊药房布局优化[J]. 数据分析与知识发现, 2018, 2(1): 99-108.
[4] 魏星,胡德华,易敏寒,朱启贞,朱文婕. 基于数据立方体挖掘疾病-基因-药物新关联*[J]. 数据分析与知识发现, 2017, 1(10): 94-104.
[5] 黄名选. 基于矩阵加权关联模式的印尼中跨语言信息检索模型*[J]. 数据分析与知识发现, 2017, 1(1): 26-36.
[6] 毛琛瑜,乐小虬. 领域内中文科技文献中新发现语言描述特征分析*[J]. 现代图书情报技术, 2016, 32(5): 47-55.
[7] 马天翼,张朋柱,冯浩垠. 网络外包任务的知识需求建模研究*[J]. 现代图书情报技术, 2016, 32(3): 74-81.
[8] 阮光册, 夏磊. 基于关联规则的文本主题深度挖掘应用研究*[J]. 数据分析与知识发现, 2016, 32(12): 50-56.
[9] 周红照,侯敏,滕永林. 评价知识本体研究与规则实现*[J]. 现代图书情报技术, 2016, 32(10): 25-32.
[10] 杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
[11] 祝婷, 秦春秀, 李祖海. 基于用户分类的协同过滤个性化推荐方法研究[J]. 现代图书情报技术, 2015, 31(6): 13-19.
[12] 王小立. 智能多Agent网络的微信信息传播仿真研究[J]. 现代图书情报技术, 2015, 31(6): 85-92.
[13] 李红梅, 丁晟春. 面向复杂产品设计的本体推理研究[J]. 现代图书情报技术, 2014, 30(9): 8-14.
[14] 王传清, 毕强. 数字图书馆自动化语义标注工具系统模型研究[J]. 现代图书情报技术, 2014, 30(6): 17-24.
[15] 唐晓波, 胡华. 中文UGC信息源的本体概念抽取研究*[J]. 现代图书情报技术, 2014, 30(5): 41-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn