Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 68-75    DOI: 10.11925/infotech.1003-3513.2011.07-08.12
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于N元语法的英文学术文献聚类标签抽取算法
吴夙慧1, 成颖1, 郑彦宁2, 潘云涛2
1. 南京大学信息管理系 南京 210093;
2. 中国科学技术信息研究所 北京 100038
N-gram Based on Cluster Label Extracting Algorithm for English Paper
Wu Suhui1, Cheng Ying1, Zheng Yanning2, Pan Yuntao2
1. Department of Information Management, Nanjing University, Nanjing 210093,China;
2. Institute of Scientific & Technical Information of China, Beijing 100038,China
全文: PDF(477 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
潘云涛
吴夙慧
成颖
郑彦宁
关键词 聚类标签N元语法学术文献聚类    
Abstract:In this paper, a novel cluster label extracting algorithm for English paper based on N-gram is proposed. Before the clustering, this algorithm first uses N-gram to generate the field phrases list by prior learning in the large-scale corpus,then clusters the English paper using K-means algorithm. Finally, the highest score N-gram terms from the cluster is extracted as the label. In the score calculation, if the term exists in the field phrases list, it is set double weight. Experimental results show that the quality of cluster label is improved. Furthermore, an improved TFIDF calculation method is developed,and a new R@N method to evaluate the cluster label is proposed.
Key wordsCluster label    N-gram    Paper clustering
收稿日期: 2011-06-21     
: 

G202

 
基金资助:

本文系国家社会科学基金项目“中文学术信息检索系统相关性集成研究”(项目编号:10CTQ027)、教育部人文社会科学研究规划基金项目“面向用户的相关性标准及其应用研究”(项目编号:07JA870006)和中国科学技术信息研究所合作研究项目的研究成果之一。

引用本文:   
吴夙慧, 成颖, 郑彦宁, 潘云涛. 基于N元语法的英文学术文献聚类标签抽取算法[J]. 现代图书情报技术, 2011, 27(7/8): 68-75.
Wu Suhui, Cheng Ying, Zheng Yanning, Pan Yuntao. N-gram Based on Cluster Label Extracting Algorithm for English Paper. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2011.07-08.12.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.12
[1] 宗成庆,统计自然语言处理[M]. 北京: 清华大学出版社,2008:74-76.

[2] Berger H, Merkl D. A Comparison of Text-Categorization Methods Applied to N-Gram Frequency Statistics . In: Proceedings of the 17th Australian Joint Conference on Artificial Intelligence (AI'2004), Cairns, Australia.Lecture Notes in Computer Science,2005,3339:998-1003.

[3] Mansur M, UzZaman N, Khan M. Analysis of N-Gram Based Text Categorization for Bangla in a Newspaper Corpus . In: Proceedings of Center for Research on Bangla Language Processing,BRAC University.2006.

[4] Rahmoun A, Elberrichi Z. Experimenting N-Grams in Text Categorization[J]. The International Arab Journal of Information Technology,2007,4(4):377-385.

[5] Güran A, Akyokus S, Bayazit N G,et al. Turkish Text Categorization Using N-Gram Words . In: Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications. Turkey: Trabzon,2009:369-373.

[6] 何浩,杨海棠. 一种基于N-Gram技术的中文文献自动分类方法[J]. 情报学报, 2002,21(4):421-427.

[7] 于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J]. 图书情报工作, 2004,48(8):48-50,43.

[8] 许云,樊孝忠,张锋. 一种不需分词的中文文本分类方法[J]. 北京理工大学学报, 2005,25(9):778-781.

[9] 孙桂煌.基于N-Grams短语的中文Web文本聚类及其预处理的研究 .赣州:江西理工大学,2009.

[10] Zamir O, Etzioni O. Web Document Clustering: A Feasibility Demonstration . In: Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval.1998: 46-54.

[11] Wang J, Mo Y, Huang B, et al. Web Search Results Clustering Based on a Novel Suffix Tree Structure .In:Proceedings of the 5th International Conference on Autonomic and Trusted Computing. Lecture Notes in Computer Science. Berlin Heidelberg: Springer, 2008:540-554.

[12] Crabtree D, Gao X, Andreae P. Improving Web Clustering by Cluster Selection . In:Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence.2005:172-178.

[13] 史庆伟,赵政,朝柯. 一种基于后缀树的中文网页层次聚类方法[J]. 辽宁工程技术大学学报:自然科学版, 2006,25(6):890-892.

[14] 杜红斌,夏克文,刘南平,等.一种改进的基于广义后缀树的文本聚类算法[J]. 信息与控制, 2009,38(3):331-336.

[15] 林庆,袁晓峰,吴旻. 中文Web文档聚类算法研究[J]. 计算机工程与设计, 2009,30(20):4759-4761.

[16] 骆雄武,万小军,杨建武,等. 基于后缀树的Web检索结果聚类标签生成方法[J]. 中文信息学报, 2009,23(2):83-88.

[17] Zeng H J, He Q C, Chen Z, et al. Learning to Cluster Web Search Results .In:Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2004:210-217.

[18] Treeratpituk P, Callan J. Automatically Labeling Hierarchical Clusters . In:Proceedings of the 2006 International Conference on Digital Government Research.2006:167-176.

[19] Tseng Y H. Generic Title Labeling for Clustered Documents[J]. Expert Systems with Applications,2010, 37 (3):2247-2254.
[1] 徐雷. SPARQL查询优化[J]. 现代图书情报技术, 2012, (10): 42-48.
[2] 李树青, 刘晓倩. 基于向心扩散加权XML模型的异构用户个性化模式匹配方法[J]. 现代图书情报技术, 2012, 28(5): 32-40.
[3] 徐坤, 曹锦丹, 毕强. FCA在医学领域文本分类中的研究和应用[J]. 现代图书情报技术, 2012, 28(3): 23-26.
[4] 吴夙慧, 成颖, 郑彦宁, 潘云涛. K-means算法研究综述[J]. 现代图书情报技术, 2011, 27(5): 28-35.
[5] 易明, 毛进, 邓卫华. 基于社会化标签网络的细粒度用户兴趣建模[J]. 现代图书情报技术, 2011, 27(4): 35-41.
[6] 陆伟, 彭玉, 陈武. 基于SOM的领域热点主题探测[J]. 现代图书情报技术, 2011, 27(1): 63-68.
[7] 唐明伟, 卞艺杰, 陶飞飞. RESTful架构下图书管理系统的研究与实现[J]. 现代图书情报技术, 2010, 26(9): 84-89.
[8] 孟健,张李义. 一种基于REST服务和Mashup的分布式商品信息集成模型*[J]. 现代图书情报技术, 2010, 26(1): 15-21.
[9] 刘伟红. 大学图书馆地理信息系统设计与应用[J]. 现代图书情报技术, 2009, 25(4): 93-97.
[10] 孙志茹,吴振新,曲云鹏. 基于Wayback的索引策略研究[J]. 现代图书情报技术, 2009, 25(4): 14-18.
[11] 吴振新,向菁. Web Archive检索系统架构分析*[J]. 现代图书情报技术, 2009, 3(1): 22-27.
[12] 陈敬文,彭哲. 基于CPN网络的Web正文抽取技术研究[J]. 现代图书情报技术, 2008, 24(11): 65-71.
[13] 刘玮,周宁,马莹珺. 信息可视化在音频管理领域的应用*——语音信息可视化研究[J]. 现代图书情报技术, 2008, 24(7): 33-37.
[14] 吉雍慧. 数字图书馆中的检索结果聚类和关联推荐研究[J]. 现代图书情报技术, 2008, 24(2): 69-75.
[15] 张少龙,吴佳鑫 . 语音信息的内容分析技术研究综述[J]. 现代图书情报技术, 2007, 2(4): 28-31.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn