Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (7/8): 49-54     https://doi.org/10.11925/infotech.1003-3513.2013.07-08.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于社会标签的文本聚类研究
何文静, 何琳
南京农业大学信息科技学院 南京 210095
Research on Text Clustering Based on Social Tagging
He Wenjing, He Lin
College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (577 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
何琳
何文静
关键词 社会标签特征选择聚类方法文本聚类    
Abstract:In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by K-means, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging is discussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.
Key wordsSocial tag    Feature selection    Clustering algorithm    Text clustering
收稿日期: 2013-05-27      出版日期: 2013-09-02
: 

G250

 
基金资助:

本文系江苏省社会科学基金"社会化网络资源的组织模式和管理策略研究"(项目编号:12TQC014)和南京农业大学SRT计划"基于社会标签的Folksonomy的技术改造"(项目编号:1219A09)的研究成果之一。

通讯作者: 何琳     E-mail: helin@njau.edu.cn
引用本文:   
何文静, 何琳. 基于社会标签的文本聚类研究[J]. 现代图书情报技术, 2013, 29(7/8): 49-54.
He Wenjing, He Lin. Research on Text Clustering Based on Social Tagging. New Technology of Library and Information Service, 2013, 29(7/8): 49-54.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.07-08.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I7/8/49
[1] Brooks C H, Montanez N.An Analysis of the Effectiveness of Tagging in Blogs[C]. In: Proceedings of 2005 AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs.California:AAAI, 2005:9-14.
[2] Al-Khalifa H S,Davis H C.Folksonomy Versus Automatic Keyword Extraction:An Empirical Study[EB/OL].[2012-08-15].http://eprints.ecs. soton.ac.uk/.
[3] Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web[C]. In: Proceedings of the 2nd ACM International Conference on Web Search and Data Mining(WSDM'09). New York, NY, USA: ACM, 2009:54-63.
[4] 王波,唐常杰,段磊,等.RT-Rank:基于RSS标签排名相关性的文档聚类[J]. 计算机研究与发展,2007,44(S3):125-130.(Wang Bo,Tang Changjie,Duan Lei, et al. RT-Rank: Document Clustering Based on RSS Tag Rank Correlation[J].Journal of Computer Research and Development,2007,44(S3):125-130.)
[5] Kim H L, Yang S, Song S, et al. Tag Mediated Society with SCOT Ontology[C/OL]. In: Proceedings of Semantic Web Challenge. 2007.[2013-04-18].http://www.cs.vu.nl/~pmika/swc-2007/SCOT.pdf.
[6] 杨丹,曹俊.基于Web2.0的社会性标签推荐系统[J]. 重庆工学院学报:自然科学版,2008,22(7):51-55.(Yang Dan, Cao Jun. Web Page Recommender System Based on Social Tags in Web 2.0[J].Journal of Chongqing Institute of Technology:Natural Science,2008,22(7):51-55.)
[7] 张云,冯博琴.利用标签的层次化搜索结果聚类方法[J]. 西安交通大学学报,2009,43(4):18-21.(Zhang Yun, Feng Boqin. Clustering Method Based on Label Hierarchical Search Results[J].Journal of Xi'an Jiaotong University,2009,43(4):18-21.)
[8] Heymann P, Garcia-Molina H. Collaborative Creation of Communal Hierarchical Taxonomies in Social Tagging Systems[R]. California: Stanford University,2006.
[9] 窦永香,苏山佳,赵捧未.基于Porter算法的英文标签聚类方法研究[J]. 现代图书情报技术,2009(9):40-44.(Dou Yongxiang,Su Shanjia,Zhao Pengwei.An English Tag Clustering Method Based on the Porter Stemming Algorithm[J].New Technology of Library and Information Service,2009(9):40-44.)
[10] Zubiaga A, Krner C, Strohmaier M. Tags vs Shelves: From Social Tagging to Social Classification[C]. In: Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. New York, NY, USA: ACM,2011:93-102.
[11] 靳延安.一种基于动机倾向的标签推荐方法[J]. 计算机应用研究,2013,30(1):72-77.(Jin Yan'an. Approach for Tag Recommendation Based on Orientation of Motivation[J]. Application Research of Computers,2013,30(1):72-77.)
[12] Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[R]. Minnesota: University of Minnesota,2000.
[1] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[2] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[3] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[4] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[5] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[6] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[7] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[8] 张涛, 马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[9] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[10] 操玮, 李灿, 贺婷婷, 朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[11] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[12] 官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[13] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[14] 李湘东, 阮涛, 刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[15] 路永和, 陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn