Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 3 Issue (3): 46-51     https://doi.org/10.11925/infotech.1003-3513.2009.03.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
词性标注的方法研究*——结合条件随机场和基于转换学习的方法进行词性标注
阴晋岭 王惠临
(中国科学技术信息研究所 北京 100038)
Research on the Part-of-Speech Tagging Method
Yin Jinling  Wang Huilin
(Institute of Scientific and Technical Information of China, Beijing 100038,China)
全文: PDF (601 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

词性标注是语料库建设中的重要环节,同时也是自然语言处理领域的基础研究课题。针对词性标注任务中统计处理和规则处理两种方法各自的特点和局限,提出融合条件随机场模型和基于转换学习的方法来进行自动词性标注的方案。实验结果表明,该方案能够有效地提高词性标注的正确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
阴晋岭
王惠临
关键词 词性标注条件随机场基于转换错误驱动    
Abstract

POS tagging is an important part of corpora building and a basic research in the field of NLP. After comparing the advantage and weakness of the rule-based methods and the statistical methods, an automatic POS tagging method based on both CRF and TBL is presented. And the tests prove that the method can improve the accuracy of words tagging.

Key wordsPOS tagging    CRF    TBL    Error-driven
收稿日期: 2008-12-03      出版日期: 2009-03-25
: 

TP391.1

 
基金资助:

*本文系国家科技支撑计划“多语言信息服务环境关键技术研究与应用”(项目编号:2006BAH03B02)和中国科学技术信息研究所学科建设课题基金项目“语言技术与知识技术”(项目编号:2008DP01-9)的研究成果之一。

通讯作者: 阴晋岭     E-mail: permafrost@163.com
作者简介: 阴晋岭,王惠临
引用本文:   
阴晋岭,王惠临. 词性标注的方法研究*——结合条件随机场和基于转换学习的方法进行词性标注[J]. 现代图书情报技术, 2009, 3(3): 46-51.
Yin Jinling,Wang Huilin. Research on the Part-of-Speech Tagging Method. New Technology of Library and Information Service, 2009, 3(3): 46-51.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.03.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V3/I3/46

[1] Daniel Jurafsky, James H. Martin.自然语言处理综述[M]. 冯志伟,孙乐译. 北京:电子工业出版社,2005.
[2] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In:Proceedings of the 18th International Conf on Machine Learning. San Francisco: AAAI Press, 2001:282-289.
[3] Sutton C, McCallum A. An Introduction to Conditional Random Fields for Relational   Learning[A] //Lise Getoor and Ben Taskar. Introduction to Statistical Relational Learning[M]. Maryland, MIT Press, 2006.
[4] Hanna Wallach. Efficient Training of Conditional Random Fields[C]. In: Proc.6th Annual CLUK Research Colloquium, 2002.
[5] Florian R, Ngai G. Fast Transformation-based Learning Toolkit[EB/OL]. [2008-09-10]. http://nlp.cs.jhu.edu/~rflorian/fntbl/documentation.html.
[6] Brill. Transformation-based Error-driven Learning and Natural Language Processing: A Case Study in part of Speech Tagging[J], Computational Linguistics,1995(21):543-565.
[7] 王蕾,朱巧明,李培峰,等. 基于实例和错误驱动的规则学习方法及其应用[J]. 计算机应用与软件, 2008, 25(1):162-164
[8] 张清华. 融合技术在中文名实体识别中的研究与应用[D].哈尔滨: 哈尔滨工业大学, 2004.
[9] 李鑫,黄萱菁,吴立德. 基于错误驱动算法组合分类器及其在问题分类中的应用[J]. 计算机研究与发展, 2008,45(3):535-541.
[10] 肖忠华.兰开斯特汉语语料库[EB/OL].[2008-11-05].http://ling.cass.cn/dangdai/LCMC/LCMC.htm.

[1] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[2] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[3] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[4] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[5] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[6] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[7] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[8] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[9] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[10] 王东波, 吴毅, 叶文豪, 刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[11] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[12] 张琳, 秦策, 叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[13] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[14] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[15] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn