Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (8): 37-41     https://doi.org/10.11925/infotech.1003-3513.2008.08.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |

基于双向最大匹配和HMM的分词消歧模型*
麦范金1 王挺2
1(桂林工学院现代教育技术中心 桂林 541004)
2(桂林工学院电子与计算机系 桂林 541004)
Sense Disambiguation of Chinese Segmentation Based on Bi-direction Matching Method and HMM
Mai FanjinWang Ting2
1(Modern Education Technology Center, Guilin University of Technology, Guilin 541004, China)
2(Department of Electronic and Computer Science, Guilin University of Technology, Guilin 541004, China)
全文: PDF (428 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 分词最大匹配隐马尔科夫模型歧义消减    
Abstract

This paper puts forward a model which can eliminate sense ambiguity of Chinese segmentation. This model segments word based on MM and RMM at first. Then it compares the segmentation results with each other, and output a more accurate result for the segmentation. The process can be divided into three parts:discovery, extraction and disambiguation. The test result shows that this model is able to reduce the error rate of segmentation, which is caused by the ambiguity of word segmentation.

Key wordsWord segmentation    Maximum matching method    HMM    Sense disambiguation
收稿日期: 2008-04-25      出版日期: 2008-08-25
ZTFLH: 

TP391.1

 
基金资助:

*本文系广西教育厅科研项目“基于语意理解的垃圾邮件处理模型研究”(项目编号:桂教科研2006[26]号)的研究成果之一。

通讯作者: 王挺     E-mail: 328dickwong1981@163.com
作者简介: 麦范金,王挺
引用本文:   
麦范金,王挺.
基于双向最大匹配和HMM的分词消歧模型*[J]. 现代图书情报技术, 2008, 24(8): 37-41.
Mai Fanjin,Wang Ting. Sense Disambiguation of Chinese Segmentation Based on Bi-direction Matching Method and HMM. New Technology of Library and Information Service, 2008, 24(8): 37-41.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.08.06      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I8/37

[1] 王晓龙,关毅.计算机自然语言处理[M].北京:清华大学出版社,2005.
[2] 黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.
[3] 刘颖.计算语言学[M].北京:清华大学出版社,2002.
[4] 梁南元.书面汉语自动分词系统——CDWS[J].中文信息学报,1987(2):44-52.
[5] 王小捷,常宝宝.自然语言处理技术基础[M].北京:北京邮电大学出版社,2002.
[6] Duda R O, Hart P E, Stork D G. Pattern Classification[M]. 2nd Edition. York:Wiley New,  2001.
[7] Jurafsky D, Martin J H. Speech and Language Processing:An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition[M].USA:Prentice Hall, 2000.
[8] Jeffrey H. Theory of Probability[M]. Oxford:Oxford University Press, 1948.
[9] Good I J. The Population Frequencies of Species and the Estimation of Population Parameters[J]. Biometrika, 1953, 40(3-4):237-264.
[10] Jelinek  F, Mercer R L. Interpolated Estimation of Markov Source Parameters from Sparse Data[C]. In:Gelsema E.S. and Kanal L.N.(eds.) Pattern Recognition in Practice, North Holland, Amsterdam, 1980:381-397.
[11] Katz  S M. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1987, 35(3):400-401.
[12] Kneser R, Ney H. Improved Backing-off for M-Gram Language Modeling[C]. In:Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995(1):181-184.
[13] Witten I H, Bell T C. The Zero-frequency Problem:Estimating the Probabilities of Novel Events in Adaptive Text Compression[J]. IEEE Transactions on Information Theory, 1991, 37(4):1085-1094.
[14] 郑林曦.普通话三千常用词表[M].北京:语文出版社,1987.

[1] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[2] 陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣. 基于互信息和逻辑回归的新词发现 *[J]. 数据分析与知识发现, 2019, 3(8): 105-113.
[3] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[4] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[5] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[6] 倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[7] 王晓玉, 李斌. 基于CRFs和词典信息的中古汉语自动分词*[J]. 数据分析与知识发现, 2017, 1(5): 62-70.
[8] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[9] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[10] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[11] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[12] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[13] 石崇德, 王惠临. 统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术, 2012, 28(4): 29-34.
[14] 谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
[15] 常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn