基于Hash算法的中文分词的研究

doi:10.11925/infotech.1003-3513.2008.03.14

现代图书情报技术

2008, Vol. 24

Issue (3): 78-81 https://doi.org/10.11925/infotech.1003-3513.2008.03.14

应用实践

本期目录 | 过刊浏览 | 高级检索

基于Hash算法的中文分词的研究

姚兴山

(南京大学信息管理系南京 210093)

The Improvement in a Chinese Word Segmentation Based on Hash Algorism

Yao Xingshan

(Department of Information Management,Nanjing University,Nanjing 210093,China)

摘要
参考文献
相关文章
Metrics

全文: PDF (475 KB)
输出: BibTeX | EndNote (RIS)

摘要

通过对已有算法的分析，提出一种新的词典结构，并根据词典给出分词算法。理论和实验证明，算法在速度和效率上有很大的提高。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	姚兴山

关键词 ：中文分词, 中文信息处理, 数据结构, 哈希算法

Abstract：

A new algorithm for Chinese word segmentation is introduced in this paper, which is based on the new data structure for Chinese dictionary. Theory and experimets show that the above data structure achieves much more efficiency.

Key words： Chinese word segmentation Chinese information processing Data structure Hash algorithm

收稿日期: 2007-11-28 出版日期: 2008-03-25

TP393

通讯作者: 姚兴山 E-mail: ywhavoc@126.com

作者简介: 姚兴山

引用本文:

姚兴山. 基于Hash算法的中文分词的研究[J]. 现代图书情报技术, 2008, 24(3): 78-81.
Yao Xingshan. The Improvement in a Chinese Word Segmentation Based on Hash Algorism. New Technology of Library and Information Service, 2008, 24(3): 78-81.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.03.14 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I3/78

［1］揭春雨，刘源，梁南元．汉语自动分词实用系统CASS的设计和实现［J］．中文信息学报,1991,5(4)：27-34.
［2］孙膑．现代汉语文本的词语切分技术［R］. 北京：北京大学计算语言学研究所，2002.
［3］赵曾贻．一种基于语词的分词方法［J］.苏州大学学报,2002,18(3):44-48.
［4］陈桂林．一种改进的快速分词算法［J］.计算机研究与发展,2000,37(4):418-424.
［5］李振星，徐泽平，唐卫清．全二分最大匹配快速分词算法［J］.计算机工程与应用,2002,38(11):106-109.
［6］李庆虎.陈玉健．一种中文分词词典新机制一双字哈希机制［J］.中文信息学报，2003，17(4)：13-18．
［7］殷人昆．数据结构（用面向对象方法与C++描述）［M］. 北京：清华大学出版社, 2005.
［8］ Sahni S．Data Structures Algorithms and Application in ++［M］. 北京：机械工业出版社,2006.
［9］张海藩．软件工程［M］. 北京：人民邮电出版社, 2002:86-103.
［10］孙茂松，左正平，黄昌宁．汉语自动分词词典机制的实验研究［J］.中文信息学报,2000,14(1)：1-7.
［11］费晓洪，康松林，朱小娟，等．基于词频统计的中文分词的研究［J］.计算机工程与应用,2005，41(7)：67-68,100.
［12］陈玉忠，李保利，俞士汶．藏文自动分词系统的设计与实现［J］.中文信息学报,2003，17(3):15-20,65.

[1]	董美,常志军,张润杰. 一种面向科技文献元数据增量数据规范的多模式匹配算法^*[J]. 数据分析与知识发现, 2021, 5(6): 135-144.
[2]	段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究^*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[3]	邓莎莎, 张朋柱, 李欣苗. 政府公共决策领域中网络民意建模方法研究[J]. 现代图书情报技术, 2012, (9): 69-74.
[4]	江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[5]	季培培, 鄢小燕, 岑咏华, 王凌燕. 面向领域中文文本信息处理的术语语义层次获取研究[J]. 现代图书情报技术, 2010, 26(9): 37-41.
[6]	章成志,苏新宁 . 面向信息检索的排除词识别研究[J]. 现代图书情报技术, 2007, 2(2): 44-48.
[7]	沈磊 . 基于本体的论文检索系统的设计与实现[J]. 现代图书情报技术, 2007, 2(2): 24-27.
[8]	章成志,苏新宁 . 面向信息检索的词汇知识发现[J]. 现代图书情报技术, 2007, 2(1): 10-14.
[9]	翟喜奎 . 中文信息处理在数字图书馆中的应用[J]. 现代图书情报技术, 2006, 1(8): 8-11.
[10]	吴绍根 . 汉语自动分词模式自动机构造研究[J]. 现代图书情报技术, 2006, 1(5): 47-49.
[11]	王兰成,王立双. 一种基于数字图书馆的文本信息标引技术的改进研究*[J]. 现代图书情报技术, 2006, 1(2): 5-9.
[12]	曹进军 . PsycINFO(心理学文摘)网络检索系统建设*[J]. 现代图书情报技术, 2006, 1(10): 74-77.
[13]	肖珑,冯项云,沈芸芸. 描述元数据结构及其扩展规则研究*[J]. 现代图书情报技术, 2004, 20(9): 5-7.
[14]	李冠盛. UNIX与Web 数据结构分析设计及其数据转换研究[J]. 现代图书情报技术, 2002, 18(5): 59-61.
[15]	张俭恭,陈定权. 汉字全文检索系统的关键技术与实现[J]. 现代图书情报技术, 2001, 17(2): 16-18.

Viewed

Full text

Abstract

Cited

Shared

Discussed