基于既定词表的自适应汉语分词技术研究

doi:10.11925/infotech.1003-3513.2006.05.04

现代图书情报技术

2006, Vol. 1

Issue (5): 13-17 https://doi.org/10.11925/infotech.1003-3513.2006.05.04

数字图书馆

本期目录 | 过刊浏览 | 高级检索

基于既定词表的自适应汉语分词技术研究

黄水清程冲

(南京农业大学信息科技学院南京 210095)

Study of Self-adaptive Matching Method in Chinese Segmentation Based on Decided Vocabulary

Huang Shuiqing Cheng Chong

( College of Information Science and Technology，Nanjing Agricultural University，Nanjing 210095，China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

提出一种汉语分词算法，在给定的分词词表的基础上进行汉语分词时，不但能成功切分出分词词表中已有的词，而且能同时自动识别出分词词表中没有的词，即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明，该分词算法可以有效地解决大多数未登录词的识别问题，并且能减少分词错误，同时对分词算法的效率基本没有影响。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	黄水清
	程冲

关键词 ：自动分词, 新词识别, 未登录词

Abstract：

This paper presents an algorithm of self-adaptive matching method in Chinese segmentation. This algorithm not only identifies Chinese words in vocabulary successfully but also identifies unlisted words which are not in vocabulary on basis of decided vocabulary automatically. The test which compares this algorithm with Reverse Maximum Matching Method and some methods which identify unlisted words proves that it can resolve unknown words segmentation effectively, decreases mistakes of Chinese segmentation and has no effect on the efficiency of Chinese segmentation largely.

Key words： Automatic segmentation New word identification Unlisted words

收稿日期: 2005-12-01 出版日期: 2006-05-25

TP391

通讯作者: 黄水清 E-mail: sqhuang@njau.edu.cn

作者简介: 黄水清,程冲

引用本文:

黄水清,程冲 . 基于既定词表的自适应汉语分词技术研究[J]. 现代图书情报技术, 2006, 1(5): 13-17.
Huang Shuiqing,Cheng Chong . Study of Self-adaptive Matching Method in Chinese Segmentation Based on Decided Vocabulary. New Technology of Library and Information Service, 2006, 1(5): 13-17.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.05.04 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V1/I5/13

1孙茂松,邹嘉彦.汉语自动分词研究中的若干理论问题.语言文字应用，1995(4):40-46
2孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学，2001(1):22-32
3何燕.任意类型的未登录词的识别研究.［学位论文］.北京:北京语言文化大学文化学院,2000
4宋柔,朱宏,潘维桂等.基于语料库和规则库的人名识别法.见：陈力为编.计算语言学研究与应用.北京：北京语言学院出版社,1993150-154
5陈小荷.自动分词中未登录词问题的一揽子解决方案.语言文字应用，1999(3)：103-109
6张普,张尧汉.现代汉语“有穷多层列举”自动分词方法的讨论.语言与计算机，1986(3)：61-64
7马光志,李专.基于特征词的自动分词研究.华中科技大学学报(自然科学版),2003(3)：60-628
8苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法.计算机工程与应用,2004(15)：43-45,91
9秦文,苑春法.基于决策树的汉语未登录词识别.中文信息学报,2004,18(1)：14-19
10吕雅娟等.基于分解与动态规划策略的汉语未登录词识别.中文信息学报,2001,15(1)：28-33
11岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用.情报杂志,2005(4)：55-57,60
12朱德熙.语法讲义.北京：商务印书馆,1982
13刘源,谭强,沈旭昆.信息处理用现代汉语分词规范及自动分词方法.北京：清华大学出版社,1994
14张春霞,郝天永.汉语分词的研究现状与因难.系统仿真学报,2005,17(1)：138-143,147
15秦浩伟,步丰林.一个中文新词识别特征的研究.计算机工程,2004,30(增刊)：369-370,414
16中国科学院计算技术研究所.中文自然语言处理开放平台.http://www.nlp.org.cn/project/project.php?proj_id=6(Accessed Feb.2, 2005)

[1]	魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[2]	刘清民,姚长青,石崇德,温晓洁,孙玥莹. 面向科技文献神经机器翻译词汇表优化研究^*[J]. 数据分析与知识发现, 2019, 3(3): 76-82.
[3]	王晓玉, 李斌. 基于CRFs和词典信息的中古汉语自动分词^*[J]. 数据分析与知识发现, 2017, 1(5): 62-70.
[4]	段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[5]	孙海霞, 李军莲, 吴英杰, 吴夙慧. 基于混合策略的中文生物医学领域未登录词识别研究[J]. 现代图书情报技术, 2013, 29(1): 15-21.
[6]	段宇锋, 鞠菲. 基于N-Gram的专业领域中文新词识别研究[J]. 现代图书情报技术, 2012, 28(2): 41-47.
[7]	张金柱,张东,王惠临. 基于字位信息的中文分词方法研究*[J]. 现代图书情报技术, 2008, 24(5): 39-43.
[8]	张李义,李亚子 . 基于反序词典的中文逆向最大匹配分词系统设计*[J]. 现代图书情报技术, 2006, 1(8): 42-45.
[9]	孙巍 . 一种面向中文信息检索的汉语自动分词方法[J]. 现代图书情报技术, 2006, 1(7): 33-36.
[10]	文庭孝,邱均平,侯经川. 汉语自动分词研究展望[J]. 现代图书情报技术, 2004, 20(7): 6-10.
[11]	黄崑,符绍宏. 自动分词技术及其在信息检索中应用的研究[J]. 现代图书情报技术, 2001, 17(3): 26-29.
[12]	尹锋. 汉语自动分词研究的现状与新思维[J]. 现代图书情报技术, 1998, 14(4): 22-26.
[13]	徐进鸿,邵品洪,李明霞. 情报检索数学模型及若干技术进展*[J]. 现代图书情报技术, 1990, 6(3): 5-10.

Viewed

Full text

Abstract

Cited

Shared

Discussed