Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (11): 64-68     https://doi.org/10.11925/infotech.1003-3513.2010.11.10
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于层次聚类算法的中文人名消歧
章顺瑞, 游宏梁
中国国防科技信息中心 北京 100142
Chinese People Name Disambiguation by Hierarchical Clustering
Zhang Shunrui, You Hongliang
China Defense Science & Technology Information Center, Beijing 100142, China
全文: PDF (382 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

利用层次聚类算法针对多文档中文人名消歧工作进行研究,通过实验提出能够较好区分人名的特征。在特征权重的计算中,使用TF的计算方法,并通过构造识别人名的规则,提高实验效果。在191个待消歧人名的测试中,最终取得平均F值88.15%的较好实验效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
章顺瑞
游宏梁
关键词 人名消歧层次聚类向量空间模型    
Abstract

This paper works on the task of Chinese people name disambiguation by hierarchical clustering algorithm, and proposes several good features for the task by experiments. The authors apply TF to calculate feature weight, and get better results after using artificial rules designed for extracting people name from documents. Finally, an average F-value(α=0.5) of 88.15% is achieved in the test of the corpus containing 191 ambiguous names.

Key wordsPeople name disambiguation    Hierarchical clustering    Vector space model
收稿日期: 2010-09-29      出版日期: 2011-01-04
: 

TP391

 
引用本文:   
章顺瑞, 游宏梁. 基于层次聚类算法的中文人名消歧[J]. 现代图书情报技术, 2010, 26(11): 64-68.
Zhang Shunrui, You Hongliang. Chinese People Name Disambiguation by Hierarchical Clustering. New Technology of Library and Information Service, 2010, 26(11): 64-68.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.11.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I11/64


[1] Malin B, Airoldi E, Carley K M. A Network Analysis Model for Disambiguation of Names in Lists
[J]. Computational & Mathematical Organization Theory, 2005,11(2):119-139.

[2] WePS-3 Workshop Program
[EB/OL].
[2010-07-10]. http://nlp.uned.es/weps/.

[3] SemEval 2007
[EB/OL].
[2010-07-10]. http://nlp.cs.swarthmore.edu/semeval/index.php.

[4] Mann G S, Yarowsky D. Unsupervised Personal Name Disambiguation
[C]. In: Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL.2003: 33-40.

[5] Balog K, Azzopardi L, Rijke M D. UVA: Language Modeling Techniques for Web People Search
[C]. In: Proceedings of the 4th International Workshop on Semantic Evaluations.2007: 468–471.

[6] Ono S, Sato I, Yoshida M,et al. Person Name Disambiguation in Web Pages Using Social Network, Compound Words and Latent Topics
[C]. In: Proceedings of the 12th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining.2008:260-271.

[7] Task3 Chinese Version
[EB/OL].
[2010-10-16]. http://www.cipsc.org.cn/clp2010/task3_ch.htm.

[8] 周晓,李超,胡明涵,等. 基于人物互斥属性的中文人名消歧
[C]. 见:第六届全国信息检索学术会议(CCIR2010).2010:333-340.

[9] 丁海波,肖桐,朱靖波. 基于多阶段的中文人名消歧聚类技术的研究
[C].见:第六届全国信息检索学术会(CCIR2010).2010:316-324.

[10] ICTCLAS-分词-中文分词-汉语分词
[EB/OL].
[2010-07-10]. http://ictclas.org/.

[11] Artiles J, Gonzalo J, Sekine S. Establishing a Benchmark for the Web People Search Task
[C]. In: Proceedings of the 4th International Workshop on Semantic Evaluations.2007: 64–69.

[1] 张旺强,祝忠明,李雅梅,卢利农,刘巍. 机构知识库作者名自动消歧框架设计与实践*[J]. 数据分析与知识发现, 2019, 3(6): 92-98.
[2] 毕崇武,叶光辉,李明倩,曾杰妍. 基于标签语义挖掘的城市画像感知研究 *[J]. 数据分析与知识发现, 2019, 3(12): 41-51.
[3] 贾君枝,叶壮壮. 基于潜在语义索引的Wikidata机构实体聚类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 56-65.
[4] 王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[5] 白如江, 冷伏海, 廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
[6] 尹相权, 李书宁. 基于VSM的美国一流大学图书馆网站导航文本调查与分析[J]. 数据分析与知识发现, 2017, 1(3): 90-95.
[7] 丁晟春,龚思兰,李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究*[J]. 现代图书情报技术, 2016, 32(7-8): 12-20.
[8] 肖天久, 刘颖. 《红楼梦》词和N元文法分析[J]. 现代图书情报技术, 2015, 31(4): 50-57.
[9] 白海燕. ORCID在机构知识库中的整合介绍[J]. 现代图书情报技术, 2015, 31(3): 8-17.
[10] 谭学清, 周通, 罗琳. 一种基于类平均相似度的文本分类算法[J]. 现代图书情报技术, 2014, 30(9): 66-73.
[11] 李湘东, 廖香鹏, 黄莉. LDA模型下书目信息分类系统的研究与实现[J]. 现代图书情报技术, 2014, 30(5): 18-25.
[12] 胡吉明, 肖璐. 向量空间模型文本建模的语义增量化改进研究[J]. 现代图书情报技术, 2014, 30(10): 49-55.
[13] 赵捧未, 马琳, 秦春秀. P2P用户兴趣社区形成研究[J]. 现代图书情报技术, 2013, 29(10): 53-58.
[14] 沈耕宇, 黄水清, 王东波. 以作者合作共现为源数据的科研团队发掘方法研究[J]. 现代图书情报技术, 2013, 29(1): 57-62.
[15] 肖明, 栗文超, 夏秋菊. 基于Prefuse和层次聚类的信息检索主题知识图谱研究[J]. 现代图书情报技术, 2012, 28(4): 35-40.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn