Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (5): 83-89    DOI: 10.11925/infotech.1003-3513.2014.05.11
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究*
段宇锋1, 朱雯晶2, 陈巧1, 崔红3
1 华东师范大学商学院 上海 200241;
2 上海图书馆上海科学技术情报研究所 上海 200031;
3 美国亚利桑那大学信息资源与图书馆学学院 图森 85719
Semantic Annotation of Species Description Text in Chinese by Combining Naïve Bayes Algorithm with Bootstrapping Method
Duan Yufeng1, Zhu Wenjing2, Chen Qiao1, Cui Hong3
1 Business School, East China Normal University, Shanghai 200241, China;
2 Institute of Scientific and Technical Information of Shanghai, Shanghai Library, Shanghai 200031, China;
3 School of Information Resources and Library Science, University of Arizona, Tucson, AZ85719, USA
全文: PDF(1194 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 降低中文物种描述文本语义标注的学习成本。【方法】 设计基于Bootstrapping的弱监督学习方法, 以少量数据为基础, 迭代执行学习和标注过程。在迭代过程中, 利用置信度最高的标注数据扩充知识库, 提升标注能力。【结果】运用15 041条数据测试算法效率, F-value的平均值达到0.911 2。【局限】对过于稀疏的数据, 标注效率相对较低。【结论】本研究设计的方法不仅有效降低系统学习对训练数据规模的要求, 而且可提高标注效率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
段宇锋
陈巧
崔红
朱雯晶
关键词 Bootstrapping方法朴素贝叶斯物种描述文本语义标注    
Abstract

[Objective] To reduce cost of machine learning by declining the size of learning dataset in species description text annotation in Chinese. [Methods] Based on Bootstrapping method, design a weakly supervised learning method which performs learning and tagging processes iteratively with a small amount of data at the beginning. The iteration process promotes annotation ability continuously by expanding the knowledge base. [Results] The average score of F-value runs up to 0.911 2 on a dataset with 15 041 sentences. [Limitations] The annotation efficiency might be relatively low on sparse data. [Conclusions] The experimental data shows that the algorithm in this study not only declines the dataset size requirement of machine learning dramatically, but also increases annotation efficiency.

Key wordsBootstrapping method    Na&#x000ef    ve Bayes    Species description text    Semantic annotation
收稿日期: 2014-01-15     
:  TP391  
通讯作者: 段宇锋 E-mail:yfduan@infor.ecnu.edu.cn   
作者简介: 段宇锋, 崔红: 提出研究思路并设计研究方案, 同时负责分析数据和论文的起草与最终版本修订; 朱雯晶, 陈巧: 进行实验以及采集、清洗数据。
引用本文:   
段宇锋, 朱雯晶, 陈巧, 崔红. 朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究*[J]. 现代图书情报技术, 2014, 30(5): 83-89.
Duan Yufeng, Zhu Wenjing, Chen Qiao, Cui Hong. Semantic Annotation of Species Description Text in Chinese by Combining Naïve Bayes Algorithm with Bootstrapping Method. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.05.11.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.05.11

[1] 段宇锋, 黑珍珍, 鞠菲, 等. 基于自主学习规则的中文物种描述文本的语义标注研究[J]. 现代图书情报技术, 2012(5): 41-47. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules[J]. New Technology of Library and Information Service, 2012(5): 41-47.)
[2] 段宇锋, 黑珍珍, 鞠菲, 等. 基于贝叶斯分类的中文物种描述文本的语义标注研究[J]. 情报学报, 2012, 31(8): 805-812. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Semantic Annotation of Species Description Text in Chinese Literature by Naïve Bayes Classifier[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8):805-812.)
[3] 中国植物志编辑委员会. 中国植物志[M]. 北京: 科学出版社, 1959. (Flora of China Editorial Committee. Flora of China[M]. Beijing: Science Press, 1959.)
[4] Cui H. The XML Schema for MARTT[OL].[2012-08-08]. http://publish.uwo.ca/~hcui7/research/xmlschema.xsd.
[5] Michie D,Spiegelhalter D J,Taylor C C.Machine Learning, Neural and Statistical Classification[M]. New York: Ellis Horwood, 1994.
[6] 罗军, 高琦, 王翊. 基于Bootstrapping的本体标注方法[J]. 计算机工程, 2010, 36(23): 85-87. (Luo Jun, Gao Qi, Wang Yi. Ontology Annotation Method Based on Bootstrapping[J]. Computer Engineering, 2010, 36(23): 85-87.)
[7] 琚春华, 殷贤君, 许翀寰. 结合自助抽样的动态数据流贝叶斯分类算法[J]. 计算机工程与应用, 2011, 47(8): 118-121, 142. (Ju Chunhua, Yin Xianjun, Xu Chonghuan. Bayesian Classification Algorithm of Dynamic Data Stream Based on Bootstrap[J]. Computer Engineering and Applications, 2011, 47(8): 118-121, 142.)
[8] Sacchi L, Tucker A, Counsell S, et al. Improving Predictive Models of Glaucoma Severity by Incorporationg Quality Indicators[J]. Artificial Intelligence in Medicine, 2014, 60(2): 103-112.
[9] Mitchell T M. 机器学习[M]. 曾华军, 张银奎, 等译. 北京:机械工业出版社, 2003: 112-143. (Mitchell T M. Machine Learning[M]. Translated by Zeng Huajun, Zhang Yinkui, et al. Beijing: China Machine Press, 2003: 112-143.)
[10] Cui H. MARTT:A General Approach to Automatic Markup of Taxonomic Descriptions with XML[OL]. [2011-10-12]. http://cais-acsi.ca/proceedings/2005/cui_2005.pdf.

[1] 李勇男. 贝叶斯理论在反恐情报分类分析中的应用研究*[J]. 数据分析与知识发现, 2018, 2(10): 9-14.
[2] 毛琛瑜,乐小虬. 领域内中文科技文献中新发现语言描述特征分析*[J]. 现代图书情报技术, 2016, 32(5): 47-55.
[3] 唐祥彬, 陆伟, 张晓娟, 黄诗豪. 查询专指度特征分析与自动识别[J]. 现代图书情报技术, 2015, 31(2): 15-23.
[4] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015, 31(2): 78-84.
[5] 王传清, 毕强. 数字图书馆自动化语义标注工具系统模型研究[J]. 现代图书情报技术, 2014, 30(6): 17-24.
[6] 唐守利, 徐宝祥. 基于本体的云服务语义检索系统研究[J]. 现代图书情报技术, 2014, 30(12): 27-35.
[7] 何金晶, 窦永香. 社会化标注系统中的本体研究综述[J]. 现代图书情报技术, 2013, (6): 16-22.
[8] 佘贵清, 张永安. 审判案例自动抽取与标注模型研究[J]. 现代图书情报技术, 2013, (6): 23-29.
[9] 姚晓娜, 祝忠明, 王思丽. 面向地学领域的自动语义标注研究[J]. 现代图书情报技术, 2013, (4): 48-53.
[10] 许鑫, 郭金龙. 基于领域本体的专题库构建——以中华烹饪文化知识库为例[J]. 现代图书情报技术, 2013, (12): 2-9.
[11] 郭金龙, 洪韵佳, 许鑫. 中华烹饪文化领域本体构建及其应用[J]. 现代图书情报技术, 2013, (12): 10-18.
[12] 金碧漪, 郭金龙, 许鑫. 利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J]. 现代图书情报技术, 2013, (12): 27-33.
[13] 米杨, 曹锦丹. 顶级本体统控的多本体语义标注实证研究[J]. 现代图书情报技术, 2012, (9): 36-41.
[14] 段宇锋, 黑珍珍, 鞠菲, 崔红. 基于自主学习规则的中文物种描述文本的语义标注研究[J]. 现代图书情报技术, 2012, 28(5): 41-47.
[15] 胡元蛟, 王昊. 面向CSSCI的学者知识地图构建与分析[J]. 现代图书情报技术, 2011, 27(3): 38-44.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn