标注内容与用户属性结合的标签聚类研究

引用本文

顾晓雪, 章成志. 标注内容与用户属性结合的标签聚类研究[J]. 现代图书情报技术, 2015,31(10): 30-39
Gu Xiaoxue, Zhang Chengzhi. Combined with Annotated Content and User Attributes for Tag Clustering. New Technology of Library and Information Service,2015,31(10): 30-39 复制到剪切板

Permissions

《现代图书情报技术》编辑部

标注内容与用户属性结合的标签聚类研究

顾晓雪¹, 章成志^1,²

¹南京理工大学经济管理学院南京 210094

²江苏省数据工程与知识服务重点实验室(南京大学) 南京 210093

通讯作者:章成志, ORCID: 0000-0001-8121-4796, E-mail:zhangcz@njust.edu.cn。

作者贡献声明：

顾晓雪: 研究方案设计, 实验设计与实施, 数据清洗与分析, 论文起草;

章成志: 提出研究思路, 讨论研究方案, 采集并分析数据, 论文最终版本修订。

基金:*本文系国家社会科学基金重大项目“面向突发事件应急决策的快速响应情报体系研究”(项目编号:13&ZD174)、国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(项目编号:14BTQ033)和教育部人文社会科学基金规划项目“多语言高质量社会化标签生成及聚类研究”(项目编号:13YJA870020)的研究成果之一

摘要

【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据, 对其进行特征抽取、模型构建和相似度计算, 利用线性函数和Sigmod函数进行相似度加权, 并使用AP聚类算法进行标签聚类。【结果】在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升, Sigmod加权表现最优; 在系统分类体系下, 两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小, 评估标签聚类的分类体系不够完善, AP聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果, 标签聚类中应更加关注标签的内容特征。

关键词: 社会化特征; 标注内容; 标签聚类

中图分类号:G250

Combined with Annotated Content and User Attributes for Tag Clustering

Gu Xiaoxue¹, Zhang Chengzhi^1,²

¹School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

²Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210093, China

Abstract

[Objective] Explore the impact of tags’ annotated content and tags’ user attributes and their combinations in tag clustering.[Methods] Using ScienceNet.cn blogs, extract tag feature, build a vector space model and calculate the similarities between tags where linear method and Sigmod method are used to weight them, finally use the AP algorithm to cluster the tags.[Results] Experimental evaluation results show that in subject classification, in combination of annotated content and user attributes, two types of weighting methods can improve the clustering results, and the performace of Sigmod method is optimal; while in systematic classification, the combination of these two features can’t perform as well as the former one and even worse than the content feature.[Limitations] The data selected for experiment is small and the classification for estimating the clustering results is not perfect. What’s more, AP clustering algorithm lacks the ability to deal with big data.[Conclusions] The combination of these two features can improve the tag clustering results in some cases, and we should focus more on tag’s content in tag clustering.

Keyword: Social feature; Annotated content; Tag clustering

Show Figures

1 引言

协同标注系统允许互联网用户通过用户自定义的注释来管理和分享网上资源, 国外两个典型案例是Delicious (http://del.icio.us)和Flickr (http://www.flickr.com)。在Delicious中, 用户标记URLs; 在Flickr中, 用户可以上传、分享、管理图片。在国内, 大量的网络资源也可以被用户自定义标记, 如博客、微博、视频、商品等。如科学网博客(http://bbs.sciencenet.cn/blog.php)中, 用户可以自定义文章的关键词, 也可以使用机器生成的关键词; 新浪微博(http://weibo.com)中, 用户可以为自己打标签也可以为发表的微博内容打标签; 在优酷(http://www.youku.com)中, 用户可以为自己上传的视频打标签; 在淘宝(http://www.taobao.com)中, 用户可以为自己收藏的商品打上标签。

协同标注系统的基础是一个用户可以自定义一个用户标签来描述网络资源^[1]。在复杂网络中由相互关联用户、资源和标签组成的注释结果的一个集合, 通常被称为大众分类法(Folksonomies)^[2]。大众分类法, 使互联网用户能够标注或搜索资源时使用自定义的用户标签, 而不受预定义的导航或术语约束。Hammond等^[3]认为标签可以很容易检索和查看以前搜索过的资源。其次, 大众分类法允许用户对资源分类时可以使用几个术语, 而不是一个目录名称或是单个分支的本体^[4]。再次, 与符合严格的分类层次结构的系统相比, 大众分类法的用户进入成本很低。用户可以得到更好的搜索体验, 更易于个性化的导航设置, 更准确的用户推荐^[5]。大众分类法提供了一种社区的思想, 而不是提供一种本体或者搜索引擎。大众分类法吸收了许多用户的观点而不是几个专家的观点, 使得分类体系更加动态且能不断收入一系列变化的热词并很快地表现出流行趋势^[6]。大众分类法的问题在于巨大的用户标签集合中包含客观描述的标签和主观描述的标签, 语义明确的标签和无语义的标签^[1]。数据分析工具如聚类分析可以识别出用户最重要的个性和爱好^[7]。聚类分析等数据挖掘技术可以用来改善这一问题, 减少数据中的噪声并发现资源趋势。提取高质量的用户标签并对其进行聚类处理可以帮助用户解决这些问题。

本研究以科学网博客为例, 从资源和用户两个角度分别构建标签向量空间模型, 计算标签之间的相似度, 并用不同的加权方法将两者结合起来, 比较其聚类结果的差异。

2 相关工作

2.1 标签之间的相关性

从内容的角度来看, 结合外部语义词典的标签内容相似度计算可以帮助找到标签之间的关系。然而, 当新标签或新单词未收录于词典中时, 这种方法并不适用^[8]。从用户标注的角度来看, 标签的共现次数可以用于度量标签之间的相关度^[9]。

计算标签相似度的工作包括如下三个方面:

(1) 标签与外部资源的相似度, 通过它们的内容和信息从词汇或术语资源相似度评价的角度评估两个标签之间的相似度^[10]。比如Leo词典^①(①http://dict.leo.org/.)和WordNet^②(②http://wordnet.princeton.edu/.)可以用来测量两个标签之间的语义关系, Agirre等^[11]提出对WordNet 词义的不同聚类方法的比较结果。一些网上的语义资源如Google^③(③https://www.google.com/?gws_rd=ssl.)和Wikipedia^④(④http://en.wikipedia.org/wiki/Main_Page.)能够提供不包含在传统词典中的新生词汇的信息, 如Fokker等^[12]介绍了P2P维基百科, 一个应用于维基百科多媒体内容的个性化基于标签的导航系统原型。

(2) 从标注资源的相似度测量标签的相似度, Simpson^[8]提出基于资源的向量空间相似度计算标签相似度, 每个标签都构建一个向量, 每个向量中的元素代表这个标签在这篇文档中被使用的次数, 通过余弦值相似度衡量标签的相似度。Begelman等^[9]提出标签共现的概念, 表示两个标签同时标注同一个资源。他们使用标签之间共现的次数衡量标签之间的相似度。Christopher等^[13]通过比较他们所注释的文档的相似度衡量标签之间的相似度, 文档的相似度可以基于TF× IDF^[14]的向量空间模型(VSM)^[15]计算。周津等^[16]提出基于特征向量表示法的标签聚类算法, 将标签用一个N 维的特征向量建模表示, 并给出三种不同的特征向量表示方法, 通过计算两个特征向量在欧式空间的余弦夹角得到标签两两之间的相似度。

(3) 从标签和资源构成的关系图, 一些研究者构建标签之间的二分图, 图中的节点之间的关联性表示标签之间的关联性。Jeh等^[17]提出SimRank, 定义一个链接图中节点之间的相似度为两个随机冲浪者从两个节点出发到第一次遇见的所有不同步骤的可能性之和。Cui等^[18]引入一种基于随机游走的方法通过构建标签和资源之间的链接图测量标签之间的相似度。王萍等^[19]构建基于相似度的标签共现网络, 并赋予标签节点相应的信息值来衡量节点的核心程度。

2.2 标签聚类算法

目前在数据挖掘中存在大量的聚类方法, 聚类方法的选择取决于数据的类型、聚类的目的和应用。现有的数据挖掘中常用的聚类方法可以大致分为以下几种: 基于原型的聚类方法(如K-means ^[20]和K中心点^[21])、基于图的聚类方法(如凝聚层次聚类法^[21]和分裂层次聚类法^[21])、基于密度的方法(如DBSCAN^[22])。

标签聚类模型方面, 研究者主要将现有的聚类模型或方法用于标签聚类。一般来说, 标签聚类算法可以描述为: 构建相似矩阵计算标签相似度, 如Begelman等^[9]将标签共现用作相似性度量, 并构建一个无向加权图, 对图形分区然后获得集群。Cui等^[18]基于链接图对标签进行分类, 提出一种TagClus聚类方法。对标签执行如K-means聚类算法, 或层次凝聚聚类这种传统的相似矩阵生成聚类结果; 如Ramage等^[23]利用K-means聚类算法对社会化标签进行聚类, 曹高辉等^[24]利用凝聚式层次聚类算法进行标签聚类。Shepitsen等^[25]提出一个基于分层标记集群大众分类的个性化推荐算法, 从而抽象出每个群集有意义的信息。如Sbodio等^[26]利用自组织映射(SOM)模型对Delicious网站上的标签进行聚类。Zong等^[27]使用近似骨架标签聚类结果, 找出更好的标记集群, 并提出了一个近似骨架为基础的聚类算法标签(APPECT)。

对于通过词典和WordNet等测量两个标签之间的语义关系^[10], 从而对标签进行聚类的方法, 脱离了社会化标签系统的背景, 落入传统的词语分析方法。通过标签对之间的共现^{[8, 9]}对标签进行聚类的方法, 标签聚类结果中一些标签类簇过于庞大, 不易于用户浏览、导航及推荐, 且无法用一个精确的数学模型表征单个标签, 只能两两计算相似度, 导致计算得到的相似度精确度并不高, 从而影响最终的聚类效果^[16]。对此有些研究者^{[13, 16]}用基于对象的特征向量表示标签, 这样能够很精确地表征一个标签, 提高标签之间相似度计算的准确性, 有效解决了传统的标签共现算法存在的不足, 基于对象特征向量表示算法确实可以有效地提高聚类的准确性。但是这种方法只适用对标注对象为文本的标签。还有研究将用户、资源、标签作为图的顶点, 通过共现构成图的边, 将社会化因素引入标签聚类, 提高了标签聚类效果^[18]。

3 研究内容

本文研究思路如图1所示。从互联网上抓取科学网用户的博客数据, 筛选出博文的用户标签, 对这些用户标签进行数据清洗后得到高质量的用户标签, 对其分别进行基于内容和社会化特征抽取, 构建向量空间模型后计算出基于内容和基于社会化特征的相似度。将这两者进行相似度加权, 得到结合内容及社会化特征的标签相似度, 用AP聚类算法对这三种相似度进行聚类, 基于内容特征的聚类结果、基于社会化特征的聚类结果及结合标注内容与用户属性的聚类结果, 对聚类结果进行结果评测, 探讨结合内容与社会化特征能否对原来单一的聚类结果有所提升。

	Figure Option View Download New Window
	图1 总体研究思路

3.1 数据预处理

对网络博文的标签进行预处理, 从博文的关键词中提取用户标签, 去除HTML等无意义的网页标签, 如“ amp” 、“ hightlight” 、“ quot” 、“ for” 、“ & a” 、“ http” 、“ lt” 、“ gt” 、“ of” 、“ a” 、“ ?” 等。对用户标签进行频次统计, 选取标签频次大于等于5的共6 615个用户标签作为标签聚类的数据集。

3.2 特征抽取

标签的共现可以分为两种, 一种指两个标签用来描述相同的资源, 另一种指两个标签被同一个用户所使用。图2显示了标签和用户、资源之间的关系。对于标签1和标签2, 虽然没有用来描述相同资源, 却都被用户2所使用。对于标签2和标签3, 都被用来描述资源2、资源3且被用户3所使用。对于标签1和标签3, 没有用来描述相同资源也没有被同一用户所使用。

	Figure Option View Download New Window
	图2 资源、标签、用户关系图

(1) 内容特征抽取— 位置加权的TF× IDF

位置加权的TF× IDF区别于传统的TF× IDF, 传统的TF^[28]指Term Frequency, 表示词条i在文档D_j中出现的次数, 称为词频; 而位置加权的TF^[29]则由三部分组成, 即词条i在文档D_j标题中出现的频次、关键词中出现的频次和在全文中出现的频次, 且出现的不同位置被赋予不同的权重, 本文中取W_T、W_K、W_F值分别为2、3、1, L_T、L_K、L_F分别为文档D_j标题、关键词和全文长度。

(1)

IDF指Inverse Document Frequency, 即逆文档频率。Salton等^[28]将IDF定义为:

(2)

其中, N表示文档集合中所有的文档数目, n_i表示整个文档集合中出现过的词条i的文档的总数, 称为特征的文档频率^[30]。

加权的TF× IDF函数为:

(3)

(2) 社会化特征抽取— UF× IUF

由内容特征的定义, 可以推出社会化特征的抽取, 一个标签可以被多个用户使用, 一个用户可以使用多个标签。那么标签和标签之间的联系可以通过用户来连接。定义UF为User Frequency, 表示标签i被用户U_j使用的次数, 定义UT为User Tags, 表示用户U_j使用所有标签的总次数, 则归一化后可得:

(4)

而IUF指 Inverse User Frequency, 定义为:

(5)

其中, U表示用户集合中所有的用户数目, u_i表示整个用户集合中出现过的标签i的用户总数。则UF× IUF 公式为:

(6)

3.3 相似度计算与加权

本文采用基于向量余弦值^[15]的方法进行相似度计算, 用两种特征向量(基于内容和基于社会化)表示标签, 对于任一特征表示标签集中的两个标签向量为 , 它们之间的向量余弦值为:

(7)

其中, m为第i个标签和第j个标签共同的不重复的特征数量, W_ik表示第i个标签中第k个特征项的权重, W_jk表示第j个标签中第k个特征项的权重。当两向量余弦值越大时, 两标签的相似度越高, 被归为同一类别的可能性越大^[31]。

对于相似度的加权, 选择两种加权方案, 线性加权和Sigmod函数加权。线性加权, 即对两个相似度线性加权, 本文选取10组相似度权重系数, 分别为(0.1, 0.9)、(0.2, 0.8)、(0.3, 0.7)、(0.4, 0.6)、(0.5, 0.5)、(0.6, 0.4)、(0.7, 0.3)、(0.8, 0.2)、(0.9, 0.1)。

(8)

其中, sim_c表示基于标注内容的标签相似度, sim_u表示基于用户属性的标签相似度。

根据文献^[32], 多个相似度的结合可以用以下公式表示^[33]:

(9)

其中, w_k是各策略的权重, adj(x)是Sigmoid 函数, 该函数是一个平滑函数, 使得合并结果偏向于预测值高的策略^[32]。函数adj(x)的定义为:

(10)

其中, x是某一相似度的值, 0.5是Sigmoid 函数中心^[34]。

3.4 标签聚类的实现

Frey和Dueck^[35]在Science杂志上提出一种新的聚类算法Affinity Propagation(AP)。本实验采用加拿大多伦多大学Frey实验室开发的AP聚类算法开源软件^①(①http://www.psi.toronto.edu/index.php?q=affinity%20propagation.)对用户标注标签进行聚类。AP算法将全部样本看作网络的节点, 通过网络中各条边的消息传递, 不断更新迭代过程计算出各样本的聚类中心, 直到产生m个高质量的exemplar, 同时将其余的数据点分配到相应的聚类中。

4 实验结果与评测

4.1 实验数据与评测方法

(1) 实验数据

科学网^②(②http://www.sciencenet.cn/.)由中国科学院、中国工程院、国家自然基金委、中国科学技术协会主管, 由中国科学报社主办, 为全球最大的中文科学社区。本文选取科学网博客^③(③http://bbs.sciencenet.cn/blog.php.)作为实验数据, 采集2007年3月6日到2012年1月22日共1 951个博主的43 545篇博文(含用户标签)作为数据样本。对于每个标签, 将其标注的博文的系统分类(见表1)作为它的系统分类项, 其用户的学科分类(见表2)作为它的学科分类项。

表1 博文系统分类表

表2 用户学科分类表

(11)

其中, C_j表示第i个标签属于第j个系统分类的博文数量, K是系统分类总数。那么Tag_i所属第j个系统分类的概率为:

(12)

(13)

其中, U_j表示第i个标签所属于第j个学科分类的用户个数, M是学科分类总个数。同上可以得到Tag_i所属第j个学科分类的概率为:

(14)

(2) 评测方法

采用熵值和纯度评价博文聚类结果。这是面向分类的度量, 这些度量评估簇包含单个类的对象的程度。熵值表示每个簇由单个类的对象组成的程度。对于每个簇, 首先计算数据的类分布, 即对于簇i, 计算簇i的成员属于类j的概率。计算每个簇i的熵, 其中L是类的个数。簇集合的总熵为计算每个簇的熵的加权^[36]。熵值越小, 聚类效果越好。纯度是簇包含单个类的对象的另一种度量方法。纯度越大, 聚类效果越好^[36]。

4.2 实验结果分析

实验结果如表3所示, 对于单个特征的聚类结果, 用户特征聚类结果净相似度最高, 聚类个数较少(表3中加黑), 内容特征聚类结果净相似度最低, 聚类个数最多(表3中加黑)。净相似度是度量exemplars是否适用于解释数据的分数, 这是AP算法试图最大化的目标函数。所以用户特征聚类中的exemplars更适用于解释数据。

表3 标签聚类结果

在学科分类中, 用户特征聚类结果的熵值比内容特征聚类结果要小, 而纯度要高; 在系统分类中, 用户特征聚类结果的熵值比内容特征聚类结果要高, 纯度要小。所以在学科分类中, 用户特征聚类的结果更好; 而在系统分类中, 内容特征聚类的结果更好。其原因在于学科分类是基于用户的分类, 而系统分类是基于内容的分类。两种特征选择在各自的分类体系下都表现出较优的聚类结果。

对于两个特征的几组线性加权及Sigmod加权聚类结果评测, 画出两种分类体系下聚类结果的柱状图并作分析。学科分类下的两特征加权熵值图和加权纯度图如图3和图4所示。可以看出, 在线性加权中, 随着加权系数w₁的增加, w₂的减小, 即用户特征权重的减小和内容特征权重的增加, 聚类结果中熵值减小, 纯度增大, 但是到(0.6, 0.4)后, 熵值又开始增大, 纯度无明显变化。(0.6, 0.4)权重系数作为图中的转折点, 是内容和用户特征线性加权几组系数中, 最优的加权系数。说明内容特征与用户特征的线性加权可以提高标签聚类效果, 且内容特征的比重比用户特征的比重要稍大, 即内容特征的重要性更高。Sigmod加权函数作为神经元的非线性作用函数, 具有连续、光滑、单调且关于(0, 0.5)中心对称的特征。内容特征和用户特征的Sigmod加权的聚类结果中, 其熵值要远小于线性加权中最优的值(0.4, 0.6), 而纯度与其持平, 说明更注重平滑的Sigmod加权函数使基于内容特征和基于用户特征在学科分类体系下达到了最优的加权效果。综上所述, 两种加权方法都使得内容和用户特征的结合在学科分类体系下改善了标签聚类结果。

	Figure Option View Download New Window
	图3 学科分类下的两特征加权熵值图

	Figure Option View Download New Window
	图4 学科分类下的两特征加权纯度图

系统分类下的两特征加权熵值图和加权纯度图如图5和图6所示。可以看出, 在线性加权中, 随着加权系数w₁的增加, w₂的减小, 即用户特征权重的减小和内容特征权重的增加, 标签聚类结果中熵值不断减小, 纯度不断增大, 最终在单独的内容特征聚类结果中熵值达到最小, 纯度达到最大。Sigmod加权中聚类结果表现一般, 和线性加权中的结果相当。笔者推测, 这种现象产生的原因在于系统分类是基于博文内容的分类, 以内容为标准的分类体系使得以内容为特征的标签聚类效果达到最优。用户特征的介入不但不能改善聚类结果, 反而成为聚类过程中的一种噪音和干扰。

	Figure Option View Download New Window
	图5 系统分类下的两特征加权熵值图

	Figure Option View Download New Window
	图6 系统分类下的两特征加权纯度图

综上所述, 单独基于内容或基于用户特征的标签聚类可以满足一般用户的需要, 单独的特征聚类在不同的分类依据下的分类结果存在差异, 基于用户特征的标签聚类结果在学科分类评估中表现更好, 基于内容的标签聚类结果在系统分类中表现更好。内容与用户特征的结合在某些情况下能够提高标签聚类结果。实验表明内容与用户特征线性加权和Sigmod加权在学科分类体系下都能提高用户标签聚类效果, Sigmod加权的表现结果更好。但在系统分类体系下, 内容与用户特征的两种加权均不能改善用户标签聚类结果。在某些情况下, 对内容特征与用户特征的结合能够提高标签聚类效果, 更加满足对用户的个性化标签聚类结果的需要。

4.3 结合标注内容与用户属性的标签聚类算法优化建议

(1) 优化权重分配策略

从实验结果中发现, 在线性加权中, 当标注内容权重稍大于用户属性权重时, 标签聚类质量最好, 而非线性Sigmod函数加权中, 标签聚类质量更好。说明非线性加权的方法要优于线性加权的方法, 在两种属性加权时, 应优先选择具有连续、光滑、严格、单调关于(0, 0.5)对称特征的非线性加权方法, 从而能够达到最优的标签聚类结果。

(2) 优化标签内容的相似度计算

本文采用两种特征向量(基于标注内容和用户属性)表示标签, 构建各自的向量空间模型, 计算它们之间的向量余弦值作为标签之间的相似度。在标签内容相似度的计算中还可以考虑标签的共现信息, 如标签在文章中的共现, 标签在用户中的共现; 标签的语义相似度等。

(3) 优化用户属性的相似度计算

在本文中, 用户属性的度量基于TF× IDF定义了UF× IUF的计算方法, 计算基于标签用户属性还可以考虑其他社会化因素, 如用户与用户之前的关系紧密程度(如好友关系), 用户对资源的评价行为(如点赞、评论等)。

(4) 增加不同类型的数据集

在本文实验中, 选择的标签为博文的标签, 为更偏向内容属性的样本。在社会化标注系统中, 还存在大量偏用户属性的标签, 如用户为自己打的标签。对不同偏好属性样本, 具体的聚类的策略选择还应根据样本的自身属性来确定, 即在标注内容和用户属性的权重分配或加权策略上也要进行调整。

5 结语

本文从介绍大众分类法及其优缺点切入, 以中文网络博客标签为数据源, 从内容及社会化特征两个角度对标签特征进行抽取, 用两种加权方法对基于内容和社会化特征的相似度进行加权, 用AP聚类算法对样本进行聚类, 在两种博文分类体系下, 对两种不同的特征抽取方法及其加权结合的聚类结果进行评测, 并分析其产生的可能原因。通过实验证明, 在学科分类体系下, 内容特征及社会化特征的结合对标签聚类有明显的改善, 但在系统分类体系下, 内容特征和社会化特征的结合对标签聚类起到相反作用, 最后给出了标签聚类算法优化建议。本文不足之处在于只考虑用户标签, 忽略了从博文内容抽取的关键词, 未来工作可以探讨对于从文本内容中抽取的关键词, 社会化特征与内容特征的结合对关键词的聚类结果的影响。

参考文献

View Option

[1]	Gemmell J, Shepitsen A, Mobasher M, et al. Personalization in Folksonomies Based on Tag Clustering [C]. In: Proceedings of the 6th Workshop on Intelligent Techniques for Web Personalization and Recommender Systems. 2008. [本文引用:2]
[2]	Mathes A. Folksonomies-cooperative Classification and Communication Through Shared Metadata[J]. Computer Mediated Communication, 2004, 47(10): 1-13. [本文引用:1]
[3]	Hammond T, Hannay T, Lund B, et al. Social Bookmarking Tools (I): A General Review [J/OL]. D-Lib Magazine, 2005, 11(4). http://www.dlib.org/dlib/april05/hammond/04hammond.html. [本文引用:1]
[4]	Millen D R, Feinberg J, Kerr B. Dogear: Social Bookmarking in the Enterprise [C]. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. 2006: 111-120. [本文引用:1]
[5]	Choy S O, Lui A K. Web Information Retrieval in Collaborative Tagging Systems [C]. In: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence (WI 2006). 2006: 352-355. [本文引用:1]
[6]	Wu X, Zhang L, Yu Y. Exploring Social Annotations for the Semantic Web [C]. In: Proceedings of the 15th International Conference on World Wide Web. 2006: 417-426. [本文引用:1]
[7]	Yan R, Natsev A, Campbell M. An Efficient Manual Image Annotation Approach Based on Tagging and Browsing[C]. In: Proceedings of the Workshop on Multimedia Information Retrieval on the Many Faces of Multimedia Semantics. 2007: 13-20. [本文引用:1]
[8]	Simpson E. Clustering Tags in Enterprise and Web Folksonomies [C]. In: Proceedings of the International Conference on Weblogs & Social Media, Seattle, USA. 2008. [本文引用:3]
[9]	Begelman G, Keller P, Smadja F. Automated Tag Clustering: Improving Search and Exploration in the Tag Space[C]. In: Proceedings of the Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland . 2006: 15-33. [本文引用:4]
[10]	Van Damme C, Hepp M, Siorpaes K. Folksontology: An Integrated Approach for Turning Folksonomies into Ontologies [C]. In: Proceedings of the ESWC Workshop “Bridging the Gap between Semantic Web and Web”. 2007: 57-70. [本文引用:2]
[11]	Agirre E, De Lacalle O L. Clustering WordNet Word Senses [C]. In: Proceedings of the Conference on Recent Advances on Natural Language (RANLP’03). 2003: 121-130. [本文引用:1]
[12]	Fokker J, Pouwelse J, Buntine W. Tag-based Navigation for Peer-to-peer Wikipedia [C]. In: Proceedings of the Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland . 2006. [本文引用:1]
[13]	Christopher H B, Nancy M. Improved Annotation of the Blogopshere via Autotagging and Hierarchical Clustering [C]. In: Proceedings of the 15th World Wide Web Conference (WWW’06), Edinburgh, Scotland . 2006. [本文引用:2]
[14]	Salton G, McGill M J. Introduction to Modern Information Retrieval[M]. New York, NY, USA: McGraw-Hill, Inc. , 1983. [本文引用:1]
[15]	Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. [本文引用:2]
[16]	周津, 陈超, 俞能海. 采用对象特征向量表示法的标签聚类算法[J]. 小型微型计算机系统, 2012, 33(3): 525-530. (Zhou Jin, Chen Chao, Yu Nenghai. Tag Clustering Algorithm Using Object-based Feature Vector[J]. Journal of Chinese Computer Systems, 2012, 33(3): 525-530. ) [本文引用:3]
[17]	Jeh G, Widom J. SimRank: A Measure of Structural-context Similarity [C]. In: Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2002: 538-543. [本文引用:1]
[18]	Cui J, Liu H, He J, et al. Tagclus: A Rand om Walk-based Method for Tag Clustering[J]. Knowledge and Information Systems, 2011, 27(2): 193-225. [本文引用:3]
[19]	王萍, 张际平. 一种社会性标签聚类算法[J]. 计算机应用与软件, 2010, 27(2): 126-129. (Wang Ping, Zhang Jiping. A Clustering Algorithm of Social Tags[J]. Computer Applications and Software, 2010, 27(2): 126-129. ) [本文引用:1]
[20]	MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations [C]. In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297. [本文引用:1]
[21]	Kaufman L, Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis[M]. John Wiley & Sons, 2009. [本文引用:3]
[22]	Ester M, Kriegel H P, Sand er J, et al. A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [C]. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96) . 1996: 226-231. [本文引用:1]
[23]	Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web [C]. In: Proceedings of the 2nd ACM International Conference on Web Search and Data Mining. ACM, 2009: 54-63. [本文引用:1]
[24]	曹高辉, 焦玉英, 成全. 基于凝聚式层次聚类算法的标签聚类研究[J]. 现代图书情报技术, 2008(4): 23-28. (Cao Gaohui, Jiao Yuying, Cheng Quan. Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm[J]. New Technology of Library and Information Service, 2008(4): 23-28. ) [本文引用:1]
[25]	Shepitsen A, Gemmell J, Mobasher B, et al. Personalized Recommendation in Social Tagging Systems Using Hierarchical Clustering [C]. In: Proceedings of the 2008 ACM Conference on Recommender Systems. 2008: 259-266. [本文引用:1]
[26]	Sbodio M L, Simpson E. Tag Clustering with Self Organizing Maps [R]. Hewlett-Packard Development Company, LP, 2009. [本文引用:1]
[27]	Zong Y, Xu G, Jin P, et al. APPECT: An Approximate Backbone-based Clustering Algorithm for Tags [C]. In: Proceedings of the 7th International ADMA Conference, Beijing, China. Springer. 2011: 175-189. [本文引用:1]
[28]	Salton G, Yu C T. On the Construction of Effective Vocabularies for Information Retrieval [C]. In: Proceedings of the 1973 Meeting on Programming Languages ACM SIGPLAN Notices. 1973: 48-60. [本文引用:2]
[29]	金春霞, 周海岩. 位置加权文本聚类算法[J]. 计算机工程与科学, 2011, 33(6): 154-158. (Jin Chunxia, Zhou Haiyan. A Text Clustering Based on Position Weighting[J]. Computer Engineering & Science, 2011, 33(6): 154-158. ) [本文引用:1]
[30]	姚清耘. 基于向量空间模型的中文文本聚类方法的研究[D]. 上海: 上海交通大学, 2008. (Yao Qingyun. Research of VSM-based Chinese Text Clustering Algorithms [D]. Shanghai: Shanghai Jiaotong University, 2008. ) [本文引用:1]
[31]	何文静, 何琳. 基于社会标签的文本聚类研究[J]. 现代图书情报技术, 2013(7-8): 49-54. (He Wenjing, He Lin. Research on Text Clustering Based on Social Tagging[J]. New Technology of Library and Information Service, 2013(7-8): 49-54. ) [本文引用:1]
[32]	Ehrig M, Staab S. QOM-quick Ontology Mapping[C]. In: Proceedings of the 3rd International Semantic Web Conference, Hiroshima, Japan. Springer, 2004: 683-697. [本文引用:2]
[33]	Peukert E, Massmann S, Konig K. Comparing Similarity Combination Methods for Schema Matching [C]. In: Proceedings of the GI Jahrestagung (1). 2010: 692-701. [本文引用:1]
[34]	何琳. 基于多策略的领域本体术语抽取研究[J]. 情报学报, 2012, 31(8): 798-804. (He Lin. Domain Ontology Terminology Extraction Based on Integrated Strategy Method[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8): 798-804. ) [本文引用:1]
[35]	Frey B J, Dueck D. Clustering by Passing Messages Between Data Points[J]. Science, 2007, 315(5814): 972-976. [本文引用:1]
[36]	Tan P N, Steinbach M, Kumar V. 数据挖掘导论[M]. 范明, 范宏建译. 北京: 人民邮电出版社, 2006: 340-341. (Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [M]. Translated by Fan Ming, Fan Hongjian. Beijing: Posts & Telecom Press, 2006: 340-341. ) [本文引用:2]

2008

0.0

... 协同标注系统的基础是一个用户可以自定义一个用户标签来描述网络资源^[1] ...

... 大众分类法的问题在于巨大的用户标签集合中包含客观描述的标签和主观描述的标签, 语义明确的标签和无语义的标签^[1] ...

2004

0.0

... 在复杂网络中由相互关联用户、资源和标签组成的注释结果的一个集合, 通常被称为大众分类法(Folksonomies)^[2] ...

2005

0.0

... Hammond等^[3]认为标签可以很容易检索和查看以前搜索过的资源 ...

2006

0.0

... 其次, 大众分类法允许用户对资源分类时可以使用几个术语, 而不是一个目录名称或是单个分支的本体^[4] ...

2006

0.0

... 用户可以得到更好的搜索体验, 更易于个性化的导航设置, 更准确的用户推荐^[5] ...

2006

0.0

... 大众分类法吸收了许多用户的观点而不是几个专家的观点, 使得分类体系更加动态且能不断收入一系列变化的热词并很快地表现出流行趋势^[6] ...

2007

0.0

... 数据分析工具如聚类分析可以识别出用户最重要的个性和爱好^[7] ...

2008

0.0

... 然而, 当新标签或新单词未收录于词典中时, 这种方法并不适用^[8] ...

... (2) 从标注资源的相似度测量标签的相似度, Simpson^[8]提出基于资源的向量空间相似度计算标签相似度, 每个标签都构建一个向量, 每个向量中的元素代表这个标签在这篇文档中被使用的次数, 通过余弦值相似度衡量标签的相似度 ...

... 通过标签对之间的共现^[8,9]对标签进行聚类的方法, 标签聚类结果中一些标签类簇过于庞大, 不易于用户浏览、导航及推荐, 且无法用一个精确的数学模型表征单个标签, 只能两两计算相似度, 导致计算得到的相似度精确度并不高, 从而影响最终的聚类效果^[16] ...

2006

0.0

... 从用户标注的角度来看, 标签的共现次数可以用于度量标签之间的相关度^[9] ...

... Begelman等^[9]提出标签共现的概念, 表示两个标签同时标注同一个资源 ...

... 一般来说, 标签聚类算法可以描述为: 构建相似矩阵计算标签相似度, 如Begelman等^[9]将标签共现用作相似性度量, 并构建一个无向加权图, 对图形分区然后获得集群 ...

2007

0.0

... (1) 标签与外部资源的相似度, 通过它们的内容和信息从词汇或术语资源相似度评价的角度评估两个标签之间的相似度^[10] ...

... 对于通过词典和WordNet等测量两个标签之间的语义关系^[10], 从而对标签进行聚类的方法, 脱离了社会化标签系统的背景, 落入传统的词语分析方法 ...

2003

0.0

... )可以用来测量两个标签之间的语义关系, Agirre等^[11]提出对WordNet 词义的不同聚类方法的比较结果 ...

2006

0.0

... )能够提供不包含在传统词典中的新生词汇的信息, 如Fokker等^[12]介绍了P2P维基百科, 一个应用于维基百科多媒体内容的个性化基于标签的导航系统原型 ...

2006

0.0

... Christopher等^[13]通过比较他们所注释的文档的相似度衡量标签之间的相似度, 文档的相似度可以基于TF#cod#x000D7 ...

... 对此有些研究者^[13,16]用基于对象的特征向量表示标签, 这样能够很精确地表征一个标签, 提高标签之间相似度计算的准确性, 有效解决了传统的标签共现算法存在的不足, 基于对象特征向量表示算法确实可以有效地提高聚类的准确性 ...

1983

0.0

... IDF^[14]的向量空间模型(VSM)^[15]计算 ...

1975

0.0

... IDF^[14]的向量空间模型(VSM)^[15]计算 ...

... 3 相似度计算与加权本文采用基于向量余弦值^[15]的方法进行相似度计算, 用两种特征向量(基于内容和基于社会化)表示标签, 对于任一特征表示标签集中的两个标签向量为 ,它们之间的向量余弦值为: ...

2012

0.0

. 2012, 33(3):525-530 DOI:doi:10.3969/j.issn.1000-1220.2012.03.016

Tag Clustering Algorithm Using Object-based Feature Vector

采用对象特征向量表示法的标签聚类算法

Zhou Jin , Chen Chao , Yu Nenghai.

周津, 陈超, 俞能海

In the socialtagging systems, itoftenusesdatamining techniques, such as clustering, to remedy the problems oftag redundancy and ambiguity.The current tag clustering algorithms are mainlybased on the tag co-occurrence in different items, butthese algorithms′ clustering precision and recall are relatively low, which can only calculate the similarity between two tags. This paper proposes a newtag clustering algorithm, which introduces an object-based feature vector to characterize a single tag. This feature vector can represent a tag exactly and can get a more accurate similarity between two tags by using cosine similarity formula. K-Means algorithm is used to cluster the users′ tags. The experiment shows that the algorithm proposed in this paper can get a more accurate clustering result.

在社会化标记系统中，常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度，但是这种方法聚类的精确度与召回率并不高.针对此问题，提出一种新的标签聚类算法，充分考虑标签的标记信息，采用基于对象的特征向量来精确地表征一个标签，根据余弦相似度公式得到较为准确的标签相似度，然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果.

... 周津等^[16]提出基于特征向量表示法的标签聚类算法, 将标签用一个N 维的特征向量建模表示, 并给出三种不同的特征向量表示方法, 通过计算两个特征向量在欧式空间的余弦夹角得到标签两两之间的相似度 ...

2002

0.0

... Jeh等^[17]提出SimRank, 定义一个链接图中节点之间的相似度为两个随机冲浪者从两个节点出发到第一次遇见的所有不同步骤的可能性之和 ...

2011

0.0

... Cui等^[18]引入一种基于随机游走的方法通过构建标签和资源之间的链接图测量标签之间的相似度 ...

... Cui等^[18]基于链接图对标签进行分类, 提出一种TagClus聚类方法 ...

... 还有研究将用户、资源、标签作为图的顶点, 通过共现构成图的边, 将社会化因素引入标签聚类, 提高了标签聚类效果^[18] ...

2010

0.0

. 2010, 27(2):126-129 DOI:doi:10.3969/j.issn.1000-386X.2010.02.041

A Clustering Algorithm of Social Tags

一种社会性标签聚类算法

Wang Ping , Zhang Jiping.

王萍, 张际平

为了改进当前社会化标注系统在标签浏览和检索方面的弱点,提出一种基于加权网络分割的社会性标签聚类算法.算法基于标签节点的核心度和相似性对标签共现网络进行分割,并在聚类后自动生成该类的特征标签来代表该类簇.实验测试表明算法具有较好的聚类效果.

... 王萍等^[19]构建基于相似度的标签共现网络, 并赋予标签节点相应的信息值来衡量节点的核心程度 ...

1967

0.0

... 现有的数据挖掘中常用的聚类方法可以大致分为以下几种: 基于原型的聚类方法(如K-means ^[20]和K中心点^[21])、基于图的聚类方法(如凝聚层次聚类法^[21]和分裂层次聚类法^[21])、基于密度的方法(如DBSCAN^[22]) ...

2009

0.0

1996

0.0

2009

0.0

... 如Ramage等^[23]利用K-means聚类算法对社会化标签进行聚类, 曹高辉等^[24]利用凝聚式层次聚类算法进行标签聚类 ...

2008

0.0

. 2008, (4):23-28 DOI:doi:10.3969/j.issn.1003-3513.2008.04.005

Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm

Cao Gaohui , Jiao Yuying , Cheng Quan.

曹高辉, 焦玉英, 成全

对标签、标注、大众分类等概念进行界定,指出现有标签标注系统中存在着标签描述信息的精确度不高、标签检索结果相关度低、标签缺乏有效组织等问题,提出采用凝聚式聚类算法对标签聚类,从而实现对标签的重新组织,为用户提供更好的标签导航、浏览机制.最后通过实验对标签聚类方法进行验证.

... 如Ramage等^[23]利用K-means聚类算法对社会化标签进行聚类, 曹高辉等^[24]利用凝聚式层次聚类算法进行标签聚类 ...

2008

0.0

... Shepitsen等^[25]提出一个基于分层标记集群大众分类的个性化推荐算法, 从而抽象出每个群集有意义的信息 ...

2009

0.0

... 如Sbodio等^[26]利用自组织映射(SOM)模型对Delicious网站上的标签进行聚类 ...

2011

0.0

... Zong等^[27]使用近似骨架标签聚类结果, 找出更好的标记集群, 并提出了一个近似骨架为基础的聚类算法标签(APPECT) ...

1973

0.0

... IDF, 传统的TF^[28]指Term Frequency, 表示词条i在文档D_j中出现的次数, 称为词频 ...

... Salton等^[28]将IDF定义为: ...

2011

0.0

. 2011, 33(6):154-158 DOI:doi:10.3969/j.issn.1007-130X.2011.06.030

A Text Clustering Based on Position Weighting

位置加权文本聚类算法

Jin Chunxia , Zhou Haiyan.

金春霞, 周海岩

Document clustering is an important research topic of natural language processing and is widely applicable in the areas such as information retrieval, web mining and digital libraries. Because the feature terms of different positions in the document are different for the article’s contribution, TCABPW (a text clustering algorithm based on position weighting) is proposed in this paper. We construct a new text vector by selecting Ltopweight text that reflects the topical subject of the document and it is used to realize text clustering by hierarchical clustering and the Kmeans method. The results show that without affecting the quality of text clustering, the algorithm can not only greatly reduce the high dimension of text clustering, but also can significantly increase the stability and purity of text clutering, and can also produce the clusering effect of good quality.

文本聚类是自然语言处理研究中一项重要研究课题，文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同，提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量，采用层次聚类和Kmeans文本聚类相结合的改进算法实现文本聚类。实验结果表明，提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度，在稳定性和纯度上都有显著提高，获得了较好的聚类效果。

... 而位置加权的TF^[29]则由三部分组成, 即词条i在文档D_j标题中出现的频次、关键词中出现的频次和在全文中出现的频次, 且出现的不同位置被赋予不同的权重, 本文中取W_T、W_K、W_F值分别为2、3、1, L_T、L_K、L_F分别为文档D_j标题、关键词和全文长度 ...

2008

0.0

. 2008, :-

Research of VSM-based Chinese Text Clustering Algorithms [D].

基于向量空间模型的中文文本聚类方法的研究[D]

Yao Qingyun.

姚清耘

文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的中文文本聚类算法做了较深入的讨论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,并基于语料库的实际聚类效果, 就维度确定、特征选择、文本表示等方面提出优化方案。本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用的文本聚类效果评价指标。在回顾了已有成果的基础上,本文针对向量空间表示模型,基于搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚类效果的表现上不够稳定,但时间消耗相对较小。在对实验结果进行分析后,本文还针对现有算法存在的一些问题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价指标PP与PR的表现上,分别最多提高了11.4%与20.5%。这表明,基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。

... 其中, N表示文档集合中所有的文档数目, n_i表示整个文档集合中出现过的词条i的文档的总数, 称为特征的文档频率^[30] ...

0.0

. , 2013(7-8):49-54

Research on Text Clustering Based on Social Tagging

He Wenjing , He Lin.

何文静, 何琳

In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by K-means, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging is discussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.

以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。

... 当两向量余弦值越大时, 两标签的相似度越高, 被归为同一类别的可能性越大^[31] ...

2004

0.0

... 根据文献^[32], 多个相似度的结合可以用以下公式表示^[33]: ...

... 其中, w_k是各策略的权重, adj(x)是Sigmoid 函数, 该函数是一个平滑函数, 使得合并结果偏向于预测值高的策略^[32] ...

2010

0.0

... 根据文献^[32], 多个相似度的结合可以用以下公式表示^[33]: ...

2012

0.0

. 2012, 31(8):798-804 DOI:doi:doi:10.3772/j.issn.1000-0135.2012.08.003

Domain Ontology Terminology Extraction Based on Integrated Strategy Method

基于多策略的领域本体术语抽取研究

He Lin.

何琳

术语的抽取是领域本体构建的基础工作,决定了本体构建的质量。获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度。本文试图研究一种不依赖于背景语料的术语领域度筛选方法。本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析。实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果。

... 5是Sigmoid 函数中心^[34] ...

2007

0.0

... 4 标签聚类的实现Frey和Dueck^[35]在Science杂志上提出一种新的聚类算法Affinity Propagation(AP) ...

2006

0.0

... 簇集合的总熵为计算每个簇的熵的加权^[36] ...

... 纯度越大, 聚类效果越好^[36] ...