结合内容和标签的Web文本聚类研究

引用本文

顾晓雪, 章成志. 结合内容和标签的Web文本聚类研究 . 现代图书情报技术, 30(11): 45-52
Gu Xiaoxue, Zhang Chengzhi. Using Content and Tags for Web Text Clustering. New Technology of Library and Information Service, 30(11): 45-52 复制到剪切板

Permissions

《现代图书情报技术》编辑部

结合内容和标签的Web文本聚类研究*

顾晓雪, 章成志

南京理工大学经济管理学院南京 210094

通讯作者:章成志:E-mail:zhangcz@njust.edu.cn

作者贡献声明：

顾晓雪:设计研究方案, 实验设计与实施, 数据清洗与分析, 论文起草;

章成志:提出研究思路, 设计研究方案, 数据采集及分析, 论文最终版本修订。

基金:*本文系国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(项目编号:14BTQ033)和教育部人文社会科学基金规划项目“多语言高质量社会化标签生成及聚类研究”(项目编号:13YJA870020)的研究成果之一。

摘要

【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据, 使用TF×IDF、TextRank、TextRank×IDF三种特征抽取方法, 线性函数和Sigmod函数进行相似度加权, AP算法进行聚类。【结果】结果表明, TF×IDF的聚类效果最好, 两种加权对英文博文聚类有不同程度的改善, 但在中文博文聚类中, Sigmod加权结果稍有下降, 线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据, 聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。

关键词: 社会标签; 特征选择; 文本聚类

中图分类号:G250

Using Content and Tags for Web Text Clustering

Gu Xiaoxue, Zhang Chengzhi

School of Economics & Management, Nanjing University of Science & Technology, Nanjing 210094, China

Abstract

[Objective] This paper explores the infulence of the combination of social tagging and text content.[Methods] In this paper, taking the English and Chinese blogs for example, using TF×IDF, TextRank and TextRank×IDF as text feature extraction method, basing on tags combining with text content where two types weighted methods is used, and AP clustering algorithm is used to cluster samples.[Results] The results show thatTF×IDF acts the best in the clustering of three feature extraction. And content weighted with tags improve different degree of the clustering of English blogs, but not for Chinese blogs in the method of Sigmoid. In two kinds of similarity weighted, linear method performs better than the Sigmoid method.[Limitations] The authors cannot find the best weight coefficient of tag similarity and content similarity. AP clustering algorithm can’t apply to big data and a lot of clustering results interfered the visualization of show.[Conclusions] The weighted similarity of social tags and text content can improve the effect of the clutering of Web text.

Keyword: Social tag; Feature selection; Text clustering

Show Figures

1 引言

随着Web2.0时代的推进, 网络上出现了大量有价值的信息资源, 同时用户产生了大量的文本资源, 如博文、微博、标签等。在用户组织和管理及搜索大量的文本时候, 文本聚类能自动帮助用户对文本进行有效的分类, 从而进行有效和便捷的知识获取。所谓文本聚类, 是将文档集合全自动归类的过程, 是一种无指导的文本自动归类方法^[1]。

传统基于内容的文本聚类只关注文本内容, 有些研究者观察到新型网络信息组织方式— — 社会标签, 并初步尝试将社会标签应用于网络文本聚类, 也有些研究者将文本内容和用户标签结合起来, 但仅将标签视为文本内容的补充。本研究从文本内容和用户标签两个角度计算文本相似度, 并用加权方法将其结合起来, 比较其聚类结果的差异。

首先基于传统的基于内容的文本聚类, 给出了文本表示和三种特征抽取方法, 计算得到文本之间相似度, 用AP聚类算法对其聚类, 并比较三种特征抽取方法的聚类结果。然后将基于内容的文本相似度与基于标签的文本相似度选用Sigmoid函数进行加权重新计算, 最终得到基于文档内容与标签的Web文本聚类, 讨论社会标签对传统的文本聚类的影响和效果。

2 文献综述

2.1 基于文本内容的文本聚类方法

传统的基于文本内容的文本聚类, 将文本表示为文本模型, 如VSM(Vector Space Model)模型^[2]、N-gram模型、基于短语的模型、基于概念的模型、文本的图表示及概率模型^[3]。文本特征抽取与权重计算的方法主要有TF× IDF函数、布尔函数、频度函数、互信息(Mutual Information)、期望交叉熵(Expected Cross Entropy)、二次信息熵(QEMI)、信息增益(Information Gain)等。其中使用较多的是由Salton等^[4]提出的TF-IDF函数^[5]。然后应用标准的聚类算法(如K-means算法^[6]、谱聚类^[7]等)对文本进行聚类^[8]。

Zhao等^[9]提出了一种受约束的层次凝聚算法, 将基于划分和基于凝聚的方法结合起来, 能够减少差错, 从而提高聚类结果质量。Jing 等^[10]提出了一种新方法聚类大型和复杂的文本数据, 结果显示新方法优于标准 K-means 和二分法K-means算法, 同时仍然保持 K-means聚类过程的效率。Kummamuru等^[11]修改了模糊聚类算法, 用来进行聚类大型文本语料库, 证明改进算法具有可扩展性, 并产生有意义的集群。毛嘉莉^[12]基于多次采样一次预聚类搜索初始聚类中心的思想, 提出一种改进的K-means文本聚类方法。李星毅等^[13]提出一种基于单词相似度的文本聚类算法, 具有较好的聚类效果。李云等^[14]从Web文本抽取特征词形成基于文本的形式背景, 从中提取概念来表示文本并度量文本之间的相似度, 取得了良好的聚类效果。

2.2 基于用户标签的文本聚类方法

有些研究者观察到新型网络信息组织方式— — 社会标签, 大量的社会标签被用于网页标记、协作分类、网页导航、信息分类等。他们开始关注标签对网络文本聚类的作用。何文静等^[15]以社会标签和关键词两种特征抽取方法, 采用K-means聚类算法对文本资源进行聚类, 通过实验证明基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的聚类方法, 能够提高文本聚类的效果。杨鲲等^[16]在分析社会标注系统中用户、标签及被标注Web资源之间的关联关系的基础上, 提出了基于用户标签的Web资源语义描述获取算法。Li等^[17]针对互联网上网页标签过少的问题, 提出了一个与用户相关的标签扩展的方法, 添加标签到原文件, 设计了Folk-LDA模型有效地阻止主题漂移并得到更好的聚类效果。贺秋芳等^[18]提出一种挖掘用户标签的增强型社区网页聚类算法, 用多种距离度量挖掘网页链接关系, 将网页的内容信息相似度和链接关系结合起来进行聚类。Lu等^[19]用聚类方法Tripartite Clustering, 对网络资源中三种类型的节点(资源、用户和标签)进行聚类, Tripartite Clustering显著优于基于内容的K-means方法, 并产生更加有用的信息。

2.3 基于内容和标签的文本聚类方法

叶宇飞等^[20]提出一种Web中文文本聚类方法。在基于知网(HowNet)的概念空间基础上过滤非名词, 分析文本中重要词汇的语义, 对标签特征集与正文特征集进行特征集聚类, 再利用改进的TF× IDF算法选取两个集合中的特征, 最终将文本表示为选取的标签特征集与正文特征集的并集, 降低了特征的维度, 可以高效地表示文本。Trivedi等^[8]提出了基于子空间的特征提取方法, 利用标签信息补充网页中的内容, 提取更有代表性的特征, 从而提高网页聚类效果。Ramage等^[21]讨论如何使用生成的大规模标签的社会书签网站作为页面文字和锚文字的补充数据源, 从而提高网页的自动聚类。李鹏等^[22]提出基于Tag的网页关键词抽取方法— — Tag-TextRank, 该方法通过目标文档中的每个Tag引入相关文档估计词项图的边权重, 计算得到词项的重要度, 最后将不同Tag下的词项权重计算结果进行融合。Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank, 并具有很好的推广性。

2.4 相关研究工作总结

传统的文本聚类研究, 引入单词之间的语义, 确定聚类初始中心等方法对传统文本聚类进行优化。传统的文本聚类研究中的优化方法只基于内容中的特征选项或者算法的改进, 实现聚类结果的提高。基于用户标签的文本聚类研究中, 用标签取代了文本关键词, 还考虑了用户、链接、被标注资源之间的关系等, 对网页进行聚类。但研究者只考虑了用户标签以及其链接关系, 没有将用户标签和文本内容结合起来。在基于文本和标签的文本聚类中, 研究者选取标签与关键词的并集或基于子空间的提取方法对文本进行聚类, 仅仅将标签视为文本内容的补充。因为本文的重点是研究标签对文本聚类的提升作用, 而不是在某种特征提取方法的比较上。所以采用标准TextRank算法。

鉴于此, 本文以中英博文语料为例, 使用三种特征抽取方法对文本进行特征抽取, 不仅仅将标签视为文本关键词的补充, 而且使用两种加权方法对基于内容和基于标签的相似度进行加权, 从而计算出新的文本相似度, 最后用AP聚类算法对样本进行聚类并对聚类结果进行评测。本文比较不同标签相似度的加权对不同的特征抽取, 不同语种文本的聚类结果的影响。

3 研究内容

本文研究思路如图1所示。左上角为基于内容的文本相似度计算模块, 右上角为基于标签的文本相似度计算模块, 针对基于内容的文本相似度和对两个相似度进行加权进行文本聚类, 并对聚类结果进行评测。

	Figure Option View Download New Window
	图1 总体研究思路图

3.1 数据预处理

选取Engadget中文版^①(①http://cn.engadget.com/.)与对应的英文版^②(②http://www.engadget.com/.)博文(中英文对应且有分类)作为实验数据, 共4 906对, 采集博文全文和用户标签等信息。使用中国科学院计算技术研究所的中文分词软件ICTCLAS^③(③http://www.ictclas.org/.)对中文博文进行中文分词, 并对其进行停用词过滤, 英文博文用空格进行分词和停用词过滤, 统一为小写, 过滤符号和标点, 使用PorterStemmer^④(④http://tartarus.org/martin/PorterStemmer/.)对英文进行词干提取。用户标签全部为英文, 统一为小写, 使用PorterStemmer对其进行词干提取。

3.2 文本表达和特征抽取

本文中博文的文本表达使用Salton等^[2]提出的向量空间模型VSM。该模型的主要思想是:将每一文档都映射为由一组规范化正交词条矢量组成的向量空间中的一个点。对于每个文档D_j, 都可以用文档中的词来表示, 这些词及其对应的权重构成“ 空间” 中的一个向量, 对于文档D_j, 可以用此空间中的词条向量(W_1j, W_2j, …, W_tj)来表示, 其中, W_ij为D_j中词条i的权重^[23]。

本文主要运用三种特征抽取和权重计算方法:TF× IDF, TextRank, TextRank× IDF。

(1) TF× IDF

Salton等^[4]提出的TF× IDF函数如下:

W_ij=TF_ij× IDF_i (1)

TF指Term Frequency, 表示词条i在文档D_j中出现的次数, 称为词频; IDF指Inverse Document Frequency, 即逆文档频率。IDF定义如下:

(2)

其中, N表示文档集合中所有的文档数目, n_i表示整个文档集合中出现过的词条i的文档的总数, 称为特征的文档频率^[23]。

(2) TextRank

TextRank算法是Mihalcea等^[24]提出的一种基于图的关键词抽取方法。用G=(V, E)表示具有V个顶点集合和E个顶点集合的有向图, E是V× V的子集。对于一个给定的顶点V_i, 用In(V_i)表示指向该顶点的顶点集合(Predecessors), 用Out(V_i)表示点V_i指向的顶点集合(Successors)。那么顶点V_i的重要性分数被定义为:

(3)

(3) $TextRank \times IDF$

由于TextRank算法只对单篇文章进行关键词抽取, 没有考虑到多文档集中关键词的逆文档频率, 会产生大量的无意义的高权重关键词, 所以将TextRank和IDF相乘, 选取第三种特征抽取方法: $TextRank \times$ $IDF$ 。基中特征的权重值为:

(4)

其中, S(T_ij)为词条i在文档j中的TextRank的值。

3.3 相似度计算与加权

本文采用基于向量余弦值^[2]的方法进行文本聚类, 用三种特征向量表示文档, 对于任一特征表示文本集中的两个文本向量为 (W_1i, W_2i, W_3i, …W_ni), (W_1j, W_2j, W_3j, …W_nj), 它们之间的向量余弦值为:

(5)

其中, m为第i篇文档和第j篇文档共同的不重复的特征数量, W_ik表示第i篇文档中第k个特征项的权重, W_jk表示第j篇文档中第k个特征项的权重。当两向量余弦值越大时, 两文本的相似度越高, 被归为同一类别的可能性越大^[15]。

对于文本相似度和标签相似度的加权, 本文选择两种加权方案, 线性加权和Sigmod函数加权。线性加权, 即对两个相似度线性加权, 两个相似度权重系数都为0.5。

(6)

其中, ${sim}_{c}$ 表示基于内容的文本相似度, ${sim}_{t}$ 表示基于标签的文本相似度。

根据文献^[25], 多个相似度的结合可以用如下公式表示^[26]:

(7)

其中, w_k是各策略的权重, adj(x)是Sigmoid 函数, 该函数是一个平滑函数, 使得合并结果偏向于预测值高的策略^[25]。函数adj(x)的定义为:

(8)

其中, x是某一相似度的值, 0.5是Sigmoid 函数中心^[27]。

3.4 文本聚类的实现

Frey等^[28]在《Science》杂志上提出一种聚类算法Affinity Propagation(AP)。AP算法不需要指定聚类数目, 它将所有的数据点都作为潜在的聚类中心, 称之为Exemplar。AP需要输入一个数据点之间的相似度集合, 用s(i, k)表示索引点k和Exemplar之间的相似度。它根据N个数据点之间的相似度进行聚类。这些相似度组成N× N的相似度矩阵S(其中N为有N个数据点)。以S矩阵的对角线上的数值s(k, k)作为k点能否成为聚类中心的评判标准, 若该值越大, 则这个点成为聚类中心的可能性就越大, 这个值又称作参考度p(Preference)。AP算法中传递两种类型的消息, Responsibility和Availability。r(i, k)表示从点i发送到候选聚类中心k的数值消息, 反映k点是否适合作为i点的聚类中心。a(i, k)则表示从候选聚类中心k发送到i的数值消息, 反映i点是否选择k作为其聚类中心。r(i, k)与a(i, k)越强, 则k点作为聚类中心的可能性就越大, 并且i点隶属于以k点为聚类中心的聚类可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值, 直到产生m个高质量的Exemplar, 同时将其余的数据点分配到相应的聚类中。聚类的数量受到参考度p的影响, 如果取输入的相似度均值作为p值, 得到聚类数量是中等的。如果取最小值, 得到类数较少的聚类。

4 实验结果与评测

4.1 实验数据

Engadget是一个专注于数码产品报道、评测的博客。Engadget提供了中文版内容, 而且更新同样迅速、及时, 新闻几乎与主站同步。本文分别选取Engadget中英文网站中各4 906篇博文(中英文对应且有35个分类)作为实验数据, 采集博文全文和用户标签等信息。其中具体的博文分类如表1所示:

表1 博文类别表

4.2 评测方法

本文采用纯度和熵值评价博文聚类结果。这是面向分类的度量, 这些度量评估簇包含单个类对象的程度。

(1) 熵:每个簇由单个类对象组成的程度。对于每个簇, 首先计算数据的类分布, 即对于簇i, 计算簇i的成员属于类j的概率:

(9)

其中, m_i是簇i中对象的个数, 而m_ij是簇i中类j的对象个数。使用类分布和标准公式计算每个簇i的熵, 公式如下:

(10)

其中, L是类的个数。簇集合的总熵用每个簇的熵的加权和计算, 即:

(11)

其中, K是簇的个数, 而m是数据点的总数^[29]。一般而言, 熵值越小, 聚类效果越好。

(2) 纯度:簇包含单个类的对象的另一种度量程序。纯度越大, 聚类效果越好。簇i的纯度是:

(12)

而聚类的总纯度是^[29]:

(13)

4.3 实验结果分析

实验结果如表2所示。首先, 单独使用标签的文本聚类效果不太理想。基于标签的中文博客聚类的熵值为2.710 33, 大于基于内容的聚类结果和基于内容和标签的聚类熵, 而纯度为0.392 38, 均比后两者小(已在表2中加黑显示)。而基于标签的英文博客用AP聚类算法的结果未收敛, 没有聚类结果。笔者认为产生这种结果的原因在于, 对于博客这种网络数据, 标签个数的稀缺和质量的参差不齐不能很好地反映出原文的主题。并且从图2和图3的比较中可以看出, 基于内容的聚类结果较好, 所以, 从博客原文中抽取出关键词或者特征词显得尤为重要。但是标签作为博客的另一个社会化特征也不容忽视。对不同语言的博客, 将基于内容的聚类结果和基于内容和标签的聚类结果给出结果比较图, 并分析实验结果。

表2 中英博文聚类结果

	Figure Option View Download New Window
	图2 中文博文聚类结果比较

	Figure Option View Download New Window
	图3 英文博文聚类结果比较

在图2和图3中, 横坐标从左到右分别为:基于文本内容的聚类, 基于文本内容和标签(Sigmod加权)的聚类, 基于文本内容和标签(线性加权)的聚类。首先从特征提取来看, 无论是中文还是英文, $TF \times IDF$ 在各聚类中, 效果最优秀, 超过TextRank和TextRank $\times IDF$ 这两种特征提取方法。而 $TextRank \times IDF$ 稍稍优于TextRank, 是因为TextRank只考虑单篇文档中词语的重要性, 而 $TextRank \times IDF$ 加入了词语的逆文档频率。

其次标签的加权都对文本聚类有了一定的提高。在中文博文标签加权聚类结果中, Sigmod加权对文本聚类效果并没有改进反而有稍许下降, 而在英文博文标签加权聚类结果中, Sigmod加权对文本聚类效果有了一点提高。因为用Sigmod函数加权时, 基于标签的相似度对基于内容的相似度的影响较小。由于中文博文标签全部是英文标签, 所以对中文聚类没有提高, 反而产生了一定的干扰作用。

而线性的标签加权对中英博文聚类的结果都有很大的提高。因为线性加权中, 基于标签的相似度对基于内容的相似度的影响较大, 从而使得聚类效果都有了明显的提高。但是实验中只选取一组线性系数, 没有对多组线性系数进行实验从而找出标签相似度与内容相似度最佳的权重系数。AP聚类算法中, 由于其迭代次数多, 计算量较大, 不能应用于大数据, 而且聚类的结果中, 聚簇过多, 影响了聚类结果的展示。

5 结论与展望

本文以带分类的具有社会标签的中英文博文为聚类样本, 用三种方法对博文进行特征抽取, 用两种加权方法对基于内容和标签的相似度进行加权, 用AP聚类算法对样本进行聚类。并评估了三种特征抽取的聚类结果和标签对文本聚类的作用。通过实验证明 TF× IDF在文本聚类中的表现优于TextRank和 TextRank× IDF, 基于文档内容和标签的Web文本聚类对传统的文本聚类有一定的改善。但是在相似度的加权中, 线性加权优于Sigmod加权函数, 应该更加重视社会标签在文档聚类中的作用和意义。标签是用户在数字资源上标记的关键字, 在一定程度上能实现对信息的分类和搜索。在对Web文本聚类中, 社会标签的引入能得到更好的文本聚类结果。本文的不足之处在于, AP聚类算法不适用于大数据的Web文本聚类, 对多组线性系数实验尚未进行系统的研究, 这是未来的研究工作。此外, 测评数据集分布很不均衡, 下一步工作将优化聚类测评数据集, 更加合理地评价聚类效果。

参考文献

View Option

[1]	Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47. [本文引用:1] [JCR: 3.543]
[2]	Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. [本文引用:3] [JCR: 2.511]
[3]	马娜. 文本聚类研究[J]. 电脑知识与技术, 2009, 5(20): 5487-5489. Ma Na. Research of Document Clustering[J]. Computer Knowledge and Technology, 2009, 5(20): 5487-5489. [本文引用:1] [CJCR: 0.068]
[4]	Salton G, Yu C T. On the Construction of Effective Vocabularies for Information Retrieval [C]. In: Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval. New York: ACM, 1973: 48-60. [本文引用:2]
[5]	吴夙慧, 成颖, 郑彦宁, 等. 文本聚类中文本表示和相似度计算研究综述[J]. 情报科学, 2012, 30(4): 622-627. Wu Suhui, Cheng Ying, Zheng Yanning, et al. A Survey on Text Representation and Similarity Calculation in Text Clustering[J]. Information Science, 2012, 30(4): 622-627. [本文引用:1] [CJCR: 1.112]
[6]	Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval [M]. Cambridge: Cambridge University Press, 2008. [本文引用:1]
[7]	Luxburg U V. A Tutorial on Spectral Clustering[J]. Statistics and Computing, 2007, 17(4): 395-416. [本文引用:1] [JCR: 1.977]
[8]	Trivedi A, Rai P, DuVall S L, et al. Exploiting Tag and Word Correlations for Improved Webpage Clustering [C]. In: Proceedings of the 2nd International Workshop on Search and Mining User-Generated Contents. New York: ACM, 2010: 3-12. [本文引用:2]
[9]	Zhao Y, Karypis G, Fayyad U. Hierarchical Clustering Algorithms for Document Datasets[J]. Data Mining and Knowledge Discovery, 2005, 10(2): 141-168. [本文引用:1] [JCR: 2.877]
[10]	Jing L, Ng M K, Xu J, et al. Subspace Clustering of Text Documents with Feature Weighting K-means Algorithm[C]. In: Proceedings of the 9th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2005: 802-812. [本文引用:1]
[11]	Kummamuru K, Dhawale A, Krishnapuram R. Fuzzy Co-Clustering of Documents and Keywords [C]. In: Proceedings of the 12th IEEE International Conference on Fuzzy Systems. 2003, 2: 772-777. [本文引用:1]
[12]	毛嘉莉. 基于K-means的文本聚类算法[J]. 计算机系统应用, 2009, 18(10): 85-87. Mao Jiali. Text Clustering Algorithm Based on K-means[J]. Computer Systems & Applications, 2009, 18(10): 85-87. [本文引用:1]
[13]	李星毅, 曾路平, 施化吉. 基于单词相似度的文本聚类[J]. 计算机工程与设计, 2009, 30(8): 1966-1968. Li Xingyi, Zeng Luping, Shi Huaji. Text Clustering Based on Word Similarity[J]. Computer Engineering and Design, 2009, 30(8): 1966-1968. [本文引用:1] [CJCR: 0.789]
[14]	李云, 田素方, 李拓, 等. 基于概念格的 Web 文本聚类[J]. 计算机工程与应用, 2008, 44(23): 169-171. Li Yun, Tian Sufang, Li Tuo, et al. Web Text Clustering Based on Concept Lattice[J]. Computer Engineering and Applications, 2008, 44(23): 169-171. [本文引用:1] [CJCR: 0.457]
[15]	何文静, 何琳. 基于社会标签的文本聚类研究[J]. 现代图书情报技术, 2013(7-8): 49-54. He Wenjing, He Lin. Reasearch on Text Clustering Based on Social Tagging[J]. New Technology of Library and Information Service, 2013 (7-8): 49-54. [本文引用:2] [CJCR: 1.073]
[16]	杨鲲, 马慧芳, 史忠植. 基于社会标注的 Web 资源语义聚类研究[J]. 高技术通讯, 2012, 22(1): 48-54. Yang Kun, Ma Huifang, Shi Zhongzhi. Semantic Clustering of Web Resources Based on Social Annotation[J]. Chinese High Technology Letters, 2012, 22(1): 48-54. [本文引用:1] [CJCR: 0.479]
[17]	Li P, Wang B, Jin W. Improving Web Document Clustering Through Employing User-Related Tag Expansion Techniques[J]. Journal of Computer Science and Technology, 2012, 27(3): 554-566. [本文引用:1] [CJCR: 0.4]
[18]	贺秋芳, 曾启杰, 蔡延光. 挖掘用户标签的增强型社区网页聚类算法[J]. 微电子学与计算机, 2013, 30(2): 74-77. He Qiufang, Zeng Qijie, Cai Yan’guang. Enhanced Social Web Clustering Algorithm of Mining Information[J]. Microelectronics & Computer, 2013, 30(2): 74-77. [本文引用:1]
[19]	Lu C, Chen X, Park E K. Exploit the Tripartite Network of Social Tagging for Web Clustering [C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York: ACM, 2009: 1545-1548. [本文引用:1]
[20]	叶宇飞, 安世全, 代劲. 一种新的Web中文文本聚类方法研究[J]. 计算机应用与软件, 2013, 30(12): 222-225, 287. Ye Yufei, An Shiquan, Dai Jin. Research on a Novel Web Chinese Text Clustering Method[J]. Computer Applications and Software, 2013, 30(12): 222-225, 287. [本文引用:1] [CJCR: 0.515]
[21]	Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web [C]. In: Proceedings of the 2nd ACM International Conference on Web Search and Data Mining. New York: ACM, 2009: 54-63. [本文引用:1]
[22]	李鹏, 王斌, 石志伟, 等. Tag-Text Rank: 一种基于Tag的网页关键词抽取方法[J]. 计算机研究与发展, 2012, 49(11): 2344-2351. Li Peng, Wang Bin, Shi Zhiwei, et al. Tag-Text Rank: A Webpage Keyword Extraction Method Based on Tags[J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351. [本文引用:1]
[23]	姚清耘. 基于向量空间模型的中文文本聚类方法的研究[D]. 上海: 上海交通大学, 2008. Yao Qingyun. Research of VSM-Based Chinese Text Clustering Algorithms [D]. Shanghai: Shanghai Jiaotong University, 2008. [本文引用:2]
[24]	Mihalcea R, Tarau P. Text Rank: Bringing Order into Texts [C]. In: Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. 2004. [本文引用:1]
[25]	Ehrig M, Staab S. QOM-quick Ontology Mapping [C]. In: Proceedings of the 3rd International Semantic Web Conference (ISWC 2004). Springer Berlin Heidelberg, 2004: 683-697. [本文引用:2]
[26]	Peukert E, Massmann S, Koenig K. Comparing Similarity Combination Methods for Schema Matching [C]. In: Proceedings of GI Jahrestagung (1). 2010: 692-701. [本文引用:1]
[27]	何琳. 基于多策略的领域本体术语抽取研究[J]. 情报学报, 2012, 31(8): 798-804. He Lin. Domain Ontology Terminology Extraction Based on Integrated Strategy Method[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8): 798-804. [本文引用:1] [CJCR: 1.1348]
[28]	Frey B J, Dueck D. Clustering by Passing Messages Between Data Points[J]. Science, 2007, 315(5814): 972-976. [本文引用:1]
[29]	Tan P N, Steinbach M, Kumar V. 数据挖掘导论[M]. 范明, 范宏建译. 北京: 人民邮电出版社, 2006: 340-341. Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [M]. Translated by Fan Ming, Fan Hongjian. Beijing: Posts & Telecom Press, 2006: 340-341. [本文引用:2]

2002

3.543

0.0

... 所谓文本聚类, 是将文档集合全自动归类的过程, 是一种无指导的文本自动归类方法^[1] ...

1975

2.511

0.0

... 1 基于文本内容的文本聚类方法传统的基于文本内容的文本聚类, 将文本表示为文本模型, 如VSM(Vector Space Model)模型^[2]、N-gram模型、基于短语的模型、基于概念的模型、文本的图表示及概率模型^[3] ...

... 2 文本表达和特征抽取本文中博文的文本表达使用Salton等^[2]提出的向量空间模型VSM ...

... 3 相似度计算与加权本文采用基于向量余弦值^[2]的方法进行文本聚类, 用三种特征向量表示文档, 对于任一特征表示文本集中的两个文本向量为 (W_1i,W_2i,W_3i,…W_ni), (W_1j,W_2j,W_3j,…W_nj),它们之间的向量余弦值为: ...

2009

0.0

0.068

1973

0.0

... 其中使用较多的是由Salton等^[4]提出的TF-IDF函数^[5] ...

... Salton等^[4]提出的TF�D7 ...

2012

0.0

1.112

... 其中使用较多的是由Salton等^[4]提出的TF-IDF函数^[5] ...

2008

0.0

... 然后应用标准的聚类算法(如K-means算法^[6]、谱聚类^[7]等)对文本进行聚类^[8] ...

2007

1.977

0.0

. 2007, 17(4):395-416 DOI:10.1007/s11222-007-9033-z

A Tutorial on Spectral Clustering

1.Max Planck Institute for Biological Cybernetics Spemannstr. 38 72076 Tübingen Germany

In recent years, spectral clustering has become one of the most popular modern clustering algorithms. It is simple to implement, can be solved efficiently by standard linear algebra software, and very often outperforms traditional clustering algorithms such as the k -means algorithm. On the first glance spectral clustering appears slightly mysterious, and it is not obvious to see why it works at all and what it really does. The goal of this tutorial is to give some intuition on those questions. We describe different graph Laplacians and their basic properties, present the most common spectral clustering algorithms, and derive those algorithms from scratch by several different approaches. Advantages and disadvantages of the different spectral clustering algorithms are discussed.

... 然后应用标准的聚类算法(如K-means算法^[6]、谱聚类^[7]等)对文本进行聚类^[8] ...

2010

0.0

... 然后应用标准的聚类算法(如K-means算法^[6]、谱聚类^[7]等)对文本进行聚类^[8] ...

... Trivedi等^[8]提出了基于子空间的特征提取方法, 利用标签信息补充网页中的内容,提取更有代表性的特征, 从而提高网页聚类效果 ...

2005

2.877

0.0

. 2005, 10(2):141-168 DOI:10.1007/s10618-005-0361-3

Hierarchical Clustering Algorithms for Document Datasets

1.Department of Computer Science and Engineering and Digital Technology Center and Army HPC Research Center University of Minnesota Minneapolis MN 55455

Fast and high-quality document clustering algorithms play an important role in providing intuitive navigation and browsing mechanisms by organizing large amounts of information into a small number of meaningful clusters. In particular, clustering algorithms that build meaningful hierarchies out of large document collections are ideal tools for their interactive visualization and exploration as they provide data-views that are consistent, predictable, and at different levels of granularity. This paper focuses on document clustering algorithms that build such hierarchical solutions and (i) presents a comprehensive study of partitional and agglomerative algorithms that use different criterion functions and merging schemes, and (ii) presents a new class of clustering algorithms called constrained agglomerative algorithms , which combine features from both partitional and agglomerative approaches that allows them to reduce the early-stage errors made by agglomerative methods and hence improve the quality of clustering solutions. The experimental evaluation shows that, contrary to the common belief, partitional algorithms always lead to better solutions than agglomerative algorithms; making them ideal for clustering large document collections due to not only their relatively low computational requirements, but also higher clustering quality. Furthermore, the constrained agglomerative methods consistently lead to better solutions than agglomerative methods alone and for many cases they outperform partitional methods, as well.

... Zhao等^[9]提出了一种受约束的层次凝聚算法, 将基于划分和基于凝聚的方法结合起来, 能够减少差错, 从而提高聚类结果质量 ...

2005

0.0

... Jing 等^[10]提出了一种新方法聚类大型和复杂的文本数据, 结果显示新方法优于标准 K-means 和二分法K-means算法, 同时仍然保持 K-means聚类过程的效率 ...

2003

0.0

... Kummamuru等^[11]修改了模糊聚类算法, 用来进行聚类大型文本语料库, 证明改进算法具有可扩展性, 并产生有意义的集群 ...

2009

0.0

. 2009, 18(10):85-87

Text Clustering Algorithm Based on K-means

针对K-means算法容易收敛到局部最优以及对初值的依赖性,基于多次采样一次预聚类搜索初始聚类中心的思想.提出了一种改进的K-means文本聚类方法.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性.

... 毛嘉莉^[12]基于多次采样一次预聚类搜索初始聚类中心的思想, 提出一种改进的K-means文本聚类方法 ...

2009

0.0

0.789

. 2009, 30(8):1966-1968

Text Clustering Based on Word Similarity

研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.

... 李星毅等^[13]提出一种基于单词相似度的文本聚类算法, 具有较好的聚类效果 ...

2008

0.0

0.457

. 2008, 44(23):169-171 DOI:10.3778/j.issn.1002-8331.2008.23.052

Web Text Clustering Based on Concept Lattice

Institute of Information Engineering，Yangzhou University，Yangzhou，Jiangsu 225009，China

Web text clustering are mostly based on space vector text express model，the semantics relation of the terms in the text is not considered in this method and the dimension of the terms is very high，which results in the losing of text semantics and the increase of time complexity.The text is considered as object in this paper，and the term of text is abstract as the corresponding attribute.Therefore，a formal context is formed based on text.To express text and measure the similarity the authors extract the concept from formal context.Thus，the dimension of term is reduced，and the complexity of computation is decreased too.Theoretical analysis shows that the method of clustering is effective.

Web文本聚类大多是基于空间向量文本表示模型的，它没有考虑特征词之间的语义关系，并且特征词的维数非常高，造成文本语义信息的损失和时间复杂度的增加。把文本作为对象，文本中的特征词作为对应的属性，形成了基于文本的形式背景，从中提取概念来表示文本并度量文本之间的相似度，从而降低了特征词的维数，减少了计算的复杂度，取得了良好的聚类结果。

... 李云等^[14]从Web文本抽取特征词形成基于文本的形式背景, 从中提取概念来表示文本并度量文本之间的相似度, 取得了良好的聚类效果 ...

2013

0.0

1.073

... 何文静等^[15]以社会标签和关键词两种特征抽取方法, 采用K-means聚类算法对文本资源进行聚类, 通过实验证明基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的聚类方法, 能够提高文本聚类的效果 ...

... 当两向量余弦值越大时, 两文本的相似度越高, 被归为同一类别的可能性越大^[15] ...

2012

0.0

0.479

... 杨鲲等^[16]在分析社会标注系统中用户、标签及被标注Web资源之间的关联关系的基础上, 提出了基于用户标签的Web资源语义描述获取算法 ...

2012

0.0

0.4

. 2012, 27(3):554-566 DOI:10.1007/s11390-012-1243-y

Improving Web Document Clustering Through Employing User-Related Tag Expansion Techniques

1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing, 100190, China 2. Department of Computer Science, North Dakota State University, 1340 Administration Ave., Fargo, ND, 58102, U.S.A.

Abstract As high quality descriptors of web page semantics, social annotations or tags have been used for web document clustering and achieved promising results. However, most web pages have few tags (less than 10). This sparsity seriously limits the usage of tags for clustering. In this work, we propose a user-related tag expansion method to overcome this problem, which incorporates additional useful tags into the original tag document by utilizing user tagging data as background knowledge. Unfortunately, simply adding tags may cause topic drift, i.e., the dominant topic(s) of the original document may be changed. To tackle this problem, we have designed a novel generative model called Folk-LDA, which jointly models original and expanded tags as independent observations. Experimental results show that 1) our user-related tag expansion method can be effectively applied to over 90% tagged web documents; 2) Folk-LDA can alleviate topic drift in expansion, especially for those topic-specific documents; 3) the proposed tag-based clustering methods significantly outperform the word-based methods, which indicates that tags could be a better resource for the clustering task.

... Li等^[17]针对互联网上网页标签过少的问题, 提出了一个与用户相关的标签扩展的方法, 添加标签到原文件, 设计了Folk-LDA模型有效地阻止主题漂移并得到更好的聚类效果 ...

2013

0.0

... 贺秋芳等^[18]提出一种挖掘用户标签的增强型社区网页聚类算法, 用多种距离度量挖掘网页链接关系, 将网页的内容信息相似度和链接关系结合起来进行聚类 ...

2009

0.0

... Lu等^[19]用聚类方法Tripartite Clustering, 对网络资源中三种类型的节点(资源、用户和标签)进行聚类, Tripartite Clustering显著优于基于内容的K-means方法, 并产生更加有用的信息 ...

2013

0.0

0.515

... 3 基于内容和标签的文本聚类方法叶宇飞等^[20]提出一种Web中文文本聚类方法 ...

2009

0.0

... Ramage等^[21]讨论如何使用生成的大规模标签的社会书签网站作为页面文字和锚文字的补充数据源, 从而提高网页的自动聚类 ...

2012

0.0

... 李鹏等^[22]提出基于Tag的网页关键词抽取方法ߞ ...

2008

0.0

... 中的一个向量, 对于文档D_j, 可以用此空间中的词条向量(W_1j,W_2j,…,W_tj)来表示, 其中, W_ij为D_j中词条i的权重^[23] ...

... 其中, N表示文档集合中所有的文档数目, n_i表示整个文档集合中出现过的词条i的文档的总数, 称为特征的文档频率^[23] ...

2004

0.0

... TextRank算法是Mihalcea等^[24]提出的一种基于图的关键词抽取方法 ...

2004

0.0

... 根据文献^[25], 多个相似度的结合可以用如下公式表示^[26]: ...

... 其中, w_k是各策略的权重, adj(x)是Sigmoid 函数, 该函数是一个平滑函数, 使得合并结果偏向于预测值高的策略^[25] ...

2010

0.0

... 根据文献^[25], 多个相似度的结合可以用如下公式表示^[26]: ...

2012

0.0

1.1348

... 5是Sigmoid 函数中心^[27] ...

2007

0.0

... 4 文本聚类的实现Frey等^[28]在《Science》杂志上提出一种聚类算法Affinity Propagation(AP) ...

2006

0.0

... 其中, K是簇的个数, 而m是数据点的总数^[29] ...

... 而聚类的总纯度是^[29]: ...