|
|
Research Towards Chinese String Similarity Based on the Clustering Feature of Chinese Characters |
Wang Jingting |
Department of Military Information Management, Shanghai Branch of Nanjing Institute of Politics, Shanghai 200433,China |
|
|
Abstract This paper adopts cluster analysis method to discuss and analyze the features of Chinese characters,in order to discover the internal rules. Based on the clustering feature of Chinese characters,it refines the matching result of string matching,and advances a 2-level similarity model. The experiment result shows that this model can reflect the similarity better.
|
Received: 18 October 2010
Published: 25 March 2011
|
|
[1] 章成志.基于多层特征的字符串相似度计算模型 [J]. 情报学报 ,2005,24(6):696-701.
[2] 李钝,曹元大,万月亮.信息安全中的变形关键词的识别 [J]. 计算机工程 ,2007,33(21):155-156,159.
[3] 周学广,张焕国.抗中文主动干扰的柔性中文串匹配算法 [J]. 武汉大学学报:理学版 ,2009,55(1):101-104.
[4] 曹犟,邬晓钧,夏云庆,等.基于拼音索引的中文模糊匹配算法 [J]. 清华大学学报:自然科学版 ,2009,49(Z1):1328-1332.
[5] 宋玲,徐白.中文检索系统的相似匹配技术研究和实现 [J]. 计算机科学 ,2010,37(12A):46-48.
[6] 杜艾永,李立顺,朱愿,等.基于汉字机内编码的中文相似重复记录消除研究 [J]. 电脑知识与技术 ,2009,5(29):8314-8316.
[7] 宋柔,林民,葛诗利.汉字字形计算及其在校对系统中的应用 [J]. 小型微型计算机系统 ,2008,29(10):1964-1968.
[8] 于志恒.基于笔形相似的文本校对算法及其接口原型系统的研究 .沈阳:东北师范大学,2007.
[9] 刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法 [J], 计算机应用研究 ,2010,27(12):4523-4525.
[10] White T.走近Jazzy .(2004-09-22). .http://www.ibm.com/developerworks/cn/java/j-jazzy/?ca=dwcn-newsletter-java.
[11] Navarro G, Raffinot M.柔性字符串匹配 [M].中国科学院计算所网络信息安全研究组译.北京:电子工业出版社,2007:14-21.
[12] Cohen W W, Ravikumar P, Fienberg S E.A Comparison of String Distance Metrics for Name-Matching Tasks . In: Proceedings of IJCAI-03 Workshop on Information Integration on the Web (IIWeb-03).2003:73-78.
[13] 冯志伟.汉字和汉语的计算机处理 [J]. 当代语言学 ,2001,3(1):1-21.
|
|
Viewed |
|
|
|
Full text
|
|
|
|
|
Abstract
|
|
|
|
|
Cited |
|
|
|
|
|
Shared |
|
|
|
|
|
Discussed |
|
|
|
|