基于汉字聚类特征的中文字符串相似度计算研究

doi:10.11925/infotech.1003-3513.2011.02.08

现代图书情报技术

2011, Vol. 27

Issue (2): 48-53 https://doi.org/10.11925/infotech.1003-3513.2011.02.08

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

基于汉字聚类特征的中文字符串相似度计算研究

王静婷

南京政治学院上海分院军事信息管理系上海 200433

Research Towards Chinese String Similarity Based on the Clustering Feature of Chinese Characters

Wang Jingting

Department of Military Information Management, Shanghai Branch of Nanjing Institute of Politics, Shanghai 200433,China

摘要
参考文献
相关文章
Metrics

全文: PDF (823 KB) HTML
输出: BibTeX | EndNote (RIS)

摘要

采用聚类分析的方法,对汉字的特征进行研究和分析,找出其内在规律,根据汉字具有“成簇性”的特点,对中文字符串进行精细化匹配,给出基于改进编辑距离的相似度计算模型。实验结果表明,该模型对中文字符串的相似度具有更为精细的体现。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	王静婷

关键词 ：中文字符串匹配, 汉字成簇性, 相似度

Abstract：

This paper adopts cluster analysis method to discuss and analyze the features of Chinese characters,in order to discover the internal rules. Based on the clustering feature of Chinese characters,it refines the matching result of string matching,and advances a 2-level similarity model. The experiment result shows that this model can reflect the similarity better.

Key words： Chinese string matching Clustering of Chinese character Similarity

收稿日期: 2010-10-18 出版日期: 2011-03-25

TP391

引用本文:

王静婷. 基于汉字聚类特征的中文字符串相似度计算研究[J]. 现代图书情报技术, 2011, 27(2): 48-53.
Wang Jingting. Research Towards Chinese String Similarity Based on the Clustering Feature of Chinese Characters. New Technology of Library and Information Service, 2011, 27(2): 48-53.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.02.08 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I2/48

[1] 章成志.基于多层特征的字符串相似度计算模型
[J]. 情报学报 ,2005,24(6):696-701.

[2] 李钝,曹元大,万月亮.信息安全中的变形关键词的识别
[J]. 计算机工程 ,2007,33(21):155-156,159.

[3] 周学广,张焕国.抗中文主动干扰的柔性中文串匹配算法
[J]. 武汉大学学报:理学版 ,2009,55(1):101-104.

[4] 曹犟,邬晓钧,夏云庆,等.基于拼音索引的中文模糊匹配算法
[J]. 清华大学学报:自然科学版 ,2009,49(Z1):1328-1332.

[5] 宋玲,徐白.中文检索系统的相似匹配技术研究和实现
[J]. 计算机科学 ,2010,37(12A):46-48.

[6] 杜艾永,李立顺,朱愿,等.基于汉字机内编码的中文相似重复记录消除研究
[J]. 电脑知识与技术 ,2009,5(29):8314-8316.

[7] 宋柔,林民,葛诗利.汉字字形计算及其在校对系统中的应用
[J]. 小型微型计算机系统 ,2008,29(10):1964-1968.

[8] 于志恒.基于笔形相似的文本校对算法及其接口原型系统的研究 .沈阳:东北师范大学,2007.

[9] 刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法
[J], 计算机应用研究 ,2010,27(12):4523-4525.

[10] White T.走近Jazzy .(2004-09-22). .http://www.ibm.com/developerworks/cn/java/j-jazzy/?ca=dwcn-newsletter-java.

[11] Navarro G, Raffinot M.柔性字符串匹配
[M].中国科学院计算所网络信息安全研究组译.北京:电子工业出版社,2007:14-21.

[12] Cohen W W, Ravikumar P, Fienberg S E.A Comparison of String Distance Metrics for Name-Matching Tasks . In: Proceedings of IJCAI-03 Workshop on Information Integration on the Web (IIWeb-03).2003:73-78.

[13] 冯志伟.汉字和汉语的计算机处理
[J]. 当代语言学 ,2001,3(1):1-21.

[1]	韩辉, 刘秀文. 海事适任评估中主观题自动评分技术研究^*[J]. 数据分析与知识发现, 2021, 5(8): 113-121.
[2]	刘文斌, 何彦青, 吴振峰, 董诚. 基于BERT和多相似度融合的句子对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[3]	闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 ^*[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[4]	向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 ^*[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[5]	吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述^*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[6]	吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究^*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[7]	盛嘉祺, 许鑫. 融合主题相似度与合著网络的学者标签扩展方法研究*[J]. 数据分析与知识发现, 2020, 4(8): 75-85.
[8]	徐以聪,田学东,李新福,杨芳,史青宣. 基于犹豫模糊权重的数学表达式检索 ^*[J]. 数据分析与知识发现, 2020, 4(7): 118-126.
[9]	苏庆,陈思兆,吴伟民,李小妹,黄佃宽. 基于学习情况协同过滤算法的个性化学习推荐模型研究^*[J]. 数据分析与知识发现, 2020, 4(5): 105-117.
[10]	刘萍,彭小芳. 基于形式概念分析的词汇相似度计算^*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
[11]	高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构^*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[12]	李家全,李宝安,游新冬,吕学强. 基于专利知识图谱的专利术语相似度计算研究^*[J]. 数据分析与知识发现, 2020, 4(10): 104-112.
[13]	俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 ^*[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[14]	关鹏,王曰芬,傅柱. *基于LDA的主题语义演化分析方法研究 ^ ——以锂离子电池领域为例**[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[15]	张佩瑶,刘东苏. 基于词向量和BTM的短文本话题演化分析^*[J]. 数据分析与知识发现, 2019, 3(3): 95-101.

Viewed

Full text

Abstract

Cited

Shared

Discussed