区分标签质量的机器生成标签聚类研究

引用本文

章成志, 顾晓雪. 区分标签质量的机器生成标签聚类研究[J]. 现代图书情报技术, 2015,31(10): 22-29
Zhang Chengzhi, Gu Xiaoxue. Clustering Machine-Generated Tags with Different Quality. New Technology of Library and Information Service,2015,31(10): 22-29 复制到剪切板

Permissions

《现代图书情报技术》编辑部

区分标签质量的机器生成标签聚类研究

章成志^1,², 顾晓雪¹

¹南京理工大学经济管理学院南京 210094

²江苏省数据工程与知识服务重点实验室(南京大学) 南京 210093

通讯作者:章成志, ORCID: 0000-0001-8121-4796, E-mail:zhangcz@njust.edu.cn。

作者贡献声明：

章成志: 提出研究思路, 讨论研究方案, 采集并分析数据, 论文起草及最终版本修订;

顾晓雪: 设计研究方案, 设计与实施实验, 清洗与分析数据。

移动电话

基金:*本文系国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(项目编号:14BTQ033)、教育部人文社会科学基金规划项目“多语言高质量社会化标签生成及聚类研究”(项目编号:13YJA870020)和国家社会科学基金重点项目“大数据环境下社会舆情与决策支持方法体系研究”(项目编号:14AZD084)的研究成果之一

摘要

【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响, 本文旨在分析不同质量的机器生成标签的聚类效果差异, 并提出融合标签质量的标签聚类算法优化建议。【方法】首先, 抓取Engadet中英文博客数据, 对其进行数据预处理得到候选标签, 抽取标签社会化特征与内容特征并进行权重计算, 采用两种标签质量区分策略, 得到不同质量的标签集合; 然后, 对不同质量的标签集合进行相似度计算, 使用AP算法进行聚类, 分析比较它们的聚类结果。【结果】实验结果表明, 对于中英文标签, Top5标签聚类结果要优于Top5-10标签聚类结果, 加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一, 缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好, 对标签的社会化属性的加权能够提高机器生成标签的聚类效果, 且社会化属性可以作为区分标签质量的特征之一。

关键词: 标签质量; 标签聚类; 聚类评估

中图分类号:G250

Clustering Machine-Generated Tags with Different Quality

Zhang Chengzhi^1,², Gu Xiaoxue¹

¹School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

²Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210093, China

Abstract

[Objective] Conventional tags or words clustering haven’t considered the impact of clustering members’ quality to clustering results. This paper aims to analyze the differences in clustering results of different quality of the clustering machine-generated tags and make suggestions to improve the clustering result with fusion of tag quality.[Methods] Firstly, fetch the data of Engadet’s blogs in Chinese and English, preprocess the data and get the candidate tags, extract tags’ social and content features to calculate their weight. The authors use two strategies to distinguish different quality tags and obtain different tag sets. Then calculate the similarities of these tag sets and use AP algorithm to get clustering results, which could be compared and analyzed.[Results] The experiment results show that, for both Chinese and English tags, clustering results of Top5 tags are better than Top5-10, and clustering results of weighted social attributes of tags are better than non-weighted tags.[Limitations] The method of distinguishing tags’ quality is relatively simple and lacking of effective method to evaluate the quality of tags.[Conclusions] Clustering results of machine-generated tags with high quality are better than clustering results of tags with low quality. The clustering performance of machine-generated tags can be improved by weighting the social attribute. At the same time, the social attribute of tags can be used to evaluate the quality of them.

Keyword: Quality of tag; Tag clustering; Evaluation of clustering

Show Figures

1 引言

随着Web2.0网站的不断兴起, 社会化媒体网站中的标签日益增多, 用户使用各自语言对Web资源进行标注, 这促使了互联网上多语言社会化标签资源不断丰富。社会化标签融入了互联网用户的集体智慧, 部分标签能够很好地描述资源的主题内容, 所以, 社会化标签无疑是描述资源的重要途径。

目前, 研究者从社会化标签的分布与特点^[1]、社会化标签的自动生成^{[2, 3, 4]}、基于社会化标签的个性化推荐^{[5, 6, 7, 8]}等方面进行了比较深入的研究, 但还存在一系列尚需解决的问题。首先互联网中的标签质量参差不齐, 用户标注标签中由于用户标注标签的动机、目的及环境不同, 所以标签的质量得不到保障, 而机器抽取或推荐标签由于其算法的不完善、文本长度的限制、及多语言文本含有大量的HTML标记等问题, 使部分抽取或推荐的标签质量得不到控制。对于海量标签的知识组织和信息发现, 大多研究者采用无监督的聚类分析方法。在无监督的标签聚类中, 对标签质量的管理缺乏有效的控制。不同质量的标签对最终的标签聚类结果会产生哪些影响, 低质量标签的混入是否仅仅只是降低标签聚类效果, 这些都是值得研究和探讨的问题。

常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响, 本文旨在分析不同质量的机器生成标签的聚类效果差异。为此, 本文抓取中英文两种网络语料资源, 融合标注资源的内容特征与社会化特征, 实现高质量社会化标签的生成, 同时对抽取出的标签进行不同条件的筛选, 分别对高质量的中英文语言社会化标签进行自动聚类, 并对聚类结果进行评估, 比较与分析不同条件下的标签聚类结果, 探索聚类对象的质量差异对聚类效果的影响。

2 相关研究

社会化标签的质量问题主要体现在含糊性、同义词问题、过度主观性以及拼写错误等方面。已有研究提出一些标签质量评价方法, 过滤信任度低的噪音标签, 从而提高社会化标签应用质量。

2.1 标签质量评估研究

社会化标签分为用户标注标签和机器抽取标签。社会化标签质量评估的方法, 可以分为内部评估与外部评估两种。内部评估是针对社会化标签本身的特征属性进行评估。对于社会化标签质量评估的研究, 李蕾等^[9]总结了以下8个方面的工作:

(1) 利用人工评价评估标签的质量;

(2) 基于标签自身统计属性评估标签的质量;

(3) 依据规范词语进行隐含的质量评估;

(4) 依据标签和主题词的比较进行评估;

(5) 依据用户标签与专家标注结果的比较结果进行评估;

(6) 依据标签与文本内容关键词的比较进行评估;

(7) 基于信息检索的方式评估标签质量;

(8) 基于用户、资源、标签三者关系评估标签质量。

同时还对不同的标签质量评估方法进行比较与分析, 指出现有的社会化标签质量评估研究工作的不足之处在于标签质量评估没有结合标签的应用场合、标注资源的类型特点、标签自身的分类及用户的标注动机^[9]。

对于机器抽取标签质量评估, 较客观的评价方法是将机器生成的标签集合与领域专家标注的关键词集合通过对比来进行评价^[10]。机器抽取标签的质量评估, 大多数研究将信息检索中的准确率、召回率及F值引入标签质量评估中。准确率为机器抽取标签集合中包含人工标注的关键词的比率。召回率为人工标注的关键词中有多少被机器抽取出来。F值为综合指标, 其值越大, 说明机器抽取的标签质量越好。这种质量评价方法只能基于有预先标注关键词的文本, 对于海量的互联网文本, 不可能所有领域都具备专家所标注的关键词集合。

2.2 社会化标签抽取研究

由于标签由用户选择, 从而不可避免地使社会化标签系统中产生了大量冗余的、主观的、模糊的、语义不明确的垃圾标签, 使得用户在检索主题和组织内容时产生了不必要的噪音, 阻碍了有效的信息传播。为此, 如何从海量的文本中抽取出有意义的标签并且推荐给用户成为学者开始探索和研究的问题。

研究者通过标签的文本特征(如标签出现的频率、比例等)实现标签抽取, 如Sen等^[10]通过对标签的打分及标签的文本特征发现高质量的标签并利用表现最好的标签抽取算法得到了高质量的标签, 并将其发布在网络上。Chen等^[11]针对向Flickr用户推荐标签的问题, 结合标签文本特征(如标签频率)及社会特征(标签在用户中的共现频率), 使用贝叶斯分类法为用户推荐与其兴趣相关的标签, 文本特征可以提高标签的质量, 社会特征可以发现用户与社会活动的相关信息。另外一部分研究者对产品评论进行标签抽取, 如李丕绩等^[12]提出了一种能够为每个实体抽取特征标签的方法, 并且通过语义去重, 保证标签在语义空间内相互独立。还有利用被标记的网页之间的联系实现标签抽取, 如Suchanek等^[13]分析标签之间的语义属性及标签与被标记网页之间的关系来发现标签, 基于网页语料的关键词、内容及标签建立了一个标签推荐影响力的评估模型。

2.3 标签聚类研究

标签聚类模型方面, 研究者主要将现有的聚类模型或方法用于标签聚类。一般来说, 标签聚类算法可以描述为:

(1) 定义一个标签相似性度量, 并构建一个标签相似矩阵。Begelman等^[14]将标签共现用作相似性度量, 并构建一个无向加权图, 对图形分区然后获得集群。Cui等^[15]基于链接图对标签进行分类, 提出一种TagClus的聚类方法。

(2) 执行传统的如K-means聚类算法、层次凝聚聚类这种相似矩阵生成聚类结果。如Ramage等^[16]利用K-means聚类算法社会化标签进行聚类、曹高辉等^[17]利用凝聚式层次聚类算法进行标签聚类。Shepitsen等^[6]提出了一个个性化推荐算法依赖分层标记集群大众分类。

(3) 抽象出每个群集的有意义的信息, 并对标签进行推荐。Sbodio等^[18]利用自组织映射(SOM)模型对Delicious网站上的标签进行聚类。Zong等^[19]使用近似骨架标签聚类结果, 找出更好的标记集群, 并提出一个近似骨架为基础的聚类算法标签(APPECT)。

标签聚类可以找出学科的主要研究内容和研究热点及学科研究趋势, 同时通过标签聚类可以找出交叉学科, 把握学科发展的趋势。对情感词进行聚类, 对用户舆情观点的掌握和动态观测有一定的作用, 能够用于辅助舆情监测和对网民进行舆情引导。同时标签可视化可以使标签的聚类结果更加清晰, 有助于互联网的信息组织与信息管理。

3 研究框架与关键技术

本文研究内容如图1所示, 从网络上抓取中英文博客资源, 分别对中英文博客语料进行数据预处理, 得到候选标签, 对候选标签进行内容特征与社会化特征抽取, 得到候选标签的权重。对于候选标签, 采用对比实验, 一种不使用标签的位置加权, 一种使用标签的位置加权; 在候选标签中进行标签选择, 有两种选择方法, 一种是依据标签权重的大小, 一种是依据标签所出现的文档数。对两批内容相同、权重不同的标签构建标签-文档矩阵, 并计算其相似度。得到标签之间的相似度后, 用开源的聚类算法对标签进行聚类, 并对不同的标签聚类结果进行对比, 分析实验结果和可能原因。

	Figure Option View Download New Window
	图1 总体研究思路

3.1 数据预处理

数据预处理包括数据清洗、分词和数据筛选三部分。对于中文博文, 导入用户词典, 主要包括IT领域的常用词, 利用中国科学院计算技术研究所分词软件NLPIR^①(①http://ictclas.nlpir.org/)(又名ICTCLAS)实现中文博客的分词以及停用词过滤。对于英文博文, 先对博文的标题和正文用空格进行分词和停用词过滤, 并统一为小写, 过滤符号和标点, 使用PorterStemmer^②(②http://tartarus.org/martin/PorterStemmer/.)对英文进行词干提取。

3.2 标签权重计算与标签质量区分策略

(1) 标签权重计算

对于候选标签的内容特征抽取, 选择内容特征抽取— — 位置加权的TF× IDF^[20]作为其权重, 词条i在文档D_j标题中出现的频次、在全文中出现的频次, 且出现在不同位置被赋予不同的权重, L_T、L_F为文档D_j标题和全文长度, W_T、W_F分别取2和1。

${TF}_{1} = \frac{{TF}_{T} \times W_{T}}{L_{T}} + \frac{{TF}_{F} \times W_{F}}{L_{F}}$ (1)

对候选标签的内容特征抽取, 将候选标签在用户标签中出现的抽取标签的频次权重 W_T设为3。

${TF}_{2} = \frac{{TF}_{T} \times W_{T} + {TF}_{F} \times W_{F} + {TF}_{T} \times W_{T}}{L_{T} + L_{F}}$ (2)

候选标签的特征加权函数为:

$W_{ij} = {TF}_{ij} \times {IDF}_{i}$ (3)

(2) 标签质量区分策略

对于标签质量区分策略, 本实验按照每篇文章的候选标签的权重从大到小排序, 分别选取前10个标签、前5个标签和第6-10个标签作为三种标签集, 并在这三种标签集中按DF(标签出现的文档数)大于1、大于2、大于3、大于4分为4种标签集。对于每种语言按标签质量区分, 共12个标签集。同时还将标签社会化属性作为衡量标签质量的因素之一, 在聚类算法中将同时作为用户标签出现的机器标签给予更高的权重, 说明其贡献更突出。如果机器生成标签在用户标签中出现, 将对其赋予社会化属性权重 $W_{s}$ , 实验中分别取2, 5和10。则候选标签的特征值为 $W_{ij} = W_{ij} \times W_{s}$ 。

3.3 相似度计算

本实验采用基于向量余弦值^[20]的方法进行相似度计算, 用一个特征向量表示标签, 对于任一特征表示标签集中的两个标签向量为 , 它们之间的向量余弦值为:

(4)

其中, m为第i个标签和第j个标签共同的不重复的特征数量, $W_{ik}$ 表示第i个标签中第k个特征项的权重, $W_{jk}$ 表示第j个标签中第k个特征项的权重。当两向量余弦值越大时, 两标签的相似度越高, 被归为同一类别的可能性越大^[21]。

3.4 标签聚类

本文使用加拿大多伦多大学的概率与统计推理Frey实验室开发的Windows (32-bit)AP聚类算法开源软件^①(①http://www.psi.toronto.edu/index.php?q=affinity%20propagation.)对标签进行聚类。这是Frey和Dueck在Science杂志上提出一种新的聚类算法Affinity Propagation (AP)^[22]。AP算法不需要指定聚类数目, 它将所有的数据点都作为潜在的聚类中心, 称之为exemplar。AP需要输入数据点之间的相似度集合, 用 $s (i, k)$ 表示索引点k和exemplar之间的相似度。它根据N个数据点之间的相似度进行聚类。这些相似度组成 $N \times N$ 的相似度矩阵S(其中有N个数据点)。以S矩阵对角线上的数值 $s (k, k)$ 作为k点能否成为聚类中心的评判标准, 该值越大, 则这个点成为聚类中心的可能性也就越大, 这个值又称作参考度p(Preference)。AP算法中传递两种类型的消息, Responsibility(吸引度)和Availability(归属度)。 $r (i, k)$ 表示从点i发送到候选聚类中心k的数值消息, 反映k点是否适合作为i点的聚类中心。 $a (i, k)$ 则表示从候选聚类中心k发送到i的数值消息, 反映i点是否选择k作为其聚类中心。 $r (i, k)$ 与 $a (i, k)$ 越强, 则k点作为聚类中心的可能性就越大, 并且i点隶属于以k点为聚类中心的聚类的可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值, 直到产生m个高质量的exemplar, 同时将其余的数据点分配到相应的聚类中。聚类的数量受到参考度p的影响, 如果取输入的相似度的均值作为p值, 得到聚类数量是中等的; 如果取最小值, 得到类数较少的聚类^[22]。

4 实验结果与评测

4.1 实验数据

Engadget是一个专注于数码产品报道、评测的博客。Engadget提供了中文版内容, 而且更新同样迅速、及时, 新闻几乎与主站同步。本文选取Engadget中文版^②(②http://cn.engadget.com/.)与对应的英文版^③(③http://www.engadget.com/.)博文共4 906对博文(中英文对应且有35个分类)作为实验数据, 采集博文全文和用户标签等信息。具体的博文分类如表1所示:

表1 Engadget博文类别表

对于每个标签, 将其标注的博文的类别(见表1)作为它的分类项。

${Class}_{{Tag}_{i}} = (\begin{matrix} C_{1} & C_{2} \end{matrix} \dots \begin{matrix} C_{j} & C_{j + 1} \end{matrix} \dots C_{K}) (j \leq K)$ (5)

其中, $C_{j}$ 表示第i个标签所属第j个博文类别的博文的个数, K是博文类别总个数。那么 ${Tag}_{i}$ 所属第j个博文类别的概率为:

(6)

4.2 评测方法

本实验采用熵值和纯度评价博文聚类结果。这是面向分类的度量, 这些度量评估了类簇包含单个类的对象的程度。

(1) 熵: 每个簇由单个类的对象组成的程度。对于每个簇, 首先计算数据的类分布, 即对于簇i, 计算簇i的成员属于类j的概率^[23]:

$p_{ij} = \frac{m_{ij}}{m_{i}}$ (7)

其中, $m_{i}$ 是簇i中对象的个数, $m_{ij}$ 是簇i中标签i属于类j的对象的概率总合。使用类分布, 用标准公式计算每个簇i的熵:

(8)

其中, L是类的个数。簇集合的总熵用每个簇的熵的加权和计算:

(9)

其中, K是簇的个数, 而m是数据点的总数^[23]。熵值越小, 聚类效果越好。

(2) 纯度: 簇包含单个类的对象的另一种度量方法。纯度越大, 聚类效果越好。簇i的纯度和聚类的总纯度^[23]分别是:

$p_{i} = \max_{j} \max_{j} p_{ij}$ (10)

(11)

4.3 实验结果分析

对中英文标签聚类概况进行分析。中文标签聚类结果如表2所示, 所有的标签集在聚类中都成功收敛。

表2 中文博客Tag聚类结果

在Top10的标签集中由于成员个数大于Top5和Top6-10的成员个数, 所以其类簇个数较多, 但是Top10聚类结果中各组的Net Simi均大于Top5和Top6-10各组的Net Simi。Net Simi值是AP算法中的净相似度, 它是度量exemplars (聚类代表点)是否适用于解释数据的分数, 也是AP算法试图最大化的目标函数。所以Top10中各组的聚类代表点更适用于解释聚类结果。同时在Top10、Top5和Top6-10这三组中, 随着DF条件的变化, 成员个数的减少, 净相似度也随之下降。说明DF越大的成员点, 并不意味着其作为聚类代表点的可能性越大。DF小的成员点也可以更好地作为聚类代表点。在标签聚类中, 不能将DF作为衡量标签质量的标准, 因为DF的改变不能更好地改善标签聚类结果。

英文标签聚类结果如表3所示, Top10中有两组标签集没有收敛。与中文标签聚类结果相比, 聚类结果趋势大致相同。但是英文标签聚类结果中的净相似度均大于中文标签聚类结果中的净相似度, 说明英文标签聚类结果中的代表点比中文标签聚类结果中的代表点更能解释数据。但是在英文标签聚类结果中的Top5中DF> 1的这组数据却例外。原因在于英文标签集中只有这一组数据的聚类结果中的类簇个数比相应的中文标签聚类结果中的类簇个数要少。

表3 英文博客Tag聚类结果

针对中英文标签聚类评测, 将表2、表3中的熵值和纯度根据分组画出柱状图, 如图2和图3所示。对于中英文标签, 在DF> 1至DF> 4的4个不同数据集中, Top5的标签聚类结果的熵值比Top6-10的标签聚类结果的熵值要低, 而前者的纯度比后者要高。说明标签质量的选择策略中, 按照标签的权重大小进行选择是正确的。权重越大的标签, 其标签质量越高, 所以其聚类结果更好。同时可以看到Top10的标签聚类结果都处于Top5和Top6-10的中间。正是由于Top10的标签将高质量的标签和低质量的标签融合起来, 所以其标签聚类结果也处于高质量标签和低质量标签的中间。

	Figure Option View Download New Window
	图2 中文标签聚类结果

从图3可以发现, 高质量和低质量标签的融合还可能引发标签聚类失败, 即产生聚类未收敛的结果。在英文标签聚类中, Top5和Top6-10中的DF> 2、DF> 3的两组标签都能聚类成功。而Top10中的DF> 2、DF> 3的两组标签却聚类失败。说明高质量标签和低质量标签的融合不仅使整个标签集中的标签的平均质量变差, 还可能对整个标签集产生更糟糕的影响, 使得聚类失败。所以如何评估社会化标签的质量或是从网络文本中抽取高质量的标签成为标签聚类应用首先应该考虑和继续解决的问题。

	Figure Option View Download New Window
	图3 英文标签聚类结果

对于标签社会化属性加权, 选用中英文博客中Top10且DF> 1的标签, 从表4可以看出, 随着社会化属性权重系数 $W_{s}$ 的增加, 中英文博客标签聚类结果中, 类簇个数增加, Net Simi值增大, 熵值减小, 纯度增大, 说明标签聚类结果表现越来越好。对标签的社会化属性的加权能够提高机器生成标签的聚类效果, 且社会化属性可以作为区分标签质量的特征之一。

表4 中英文博客Tag社会化属性加权聚类结果

Topk	$W_{s}$	DF	成员个数	类簇个数	Net Simi	熵值	纯度
CH_Top10	0 2 5 10	> 1 > 1 > 1 > 1	4 793 4 793 4 793 4 793	1 128 1 141 1 156 1 172	1811.06204 1828.82027 1852.99049 1859.96060	2.10115 2.09563 2.09243 2.08619	0.48350 0.48502 0.48505 0.48583
EN_Top10	0 2 5 10	> 1 > 1 > 1 > 1	4 853 4 853 4 853 4 853	1 134 1 141 1 150 1 154	1912.98970 1914.50690 1922.91755 1928.84246	2.10858 2.10729 2.10286 2.10124	0.48627 0.48561 0.48691 0.48698

表4 中英文博客Tag社会化属性加权聚类结果

4.4 融合标签质量的标签聚类算法优化建议

(1) 增加标签聚类算法的比较

本实验只采用AP聚类算法, 没有选择多种聚类算法对标签聚类结果进行对比实验。研究者在对标签聚类时可以选择多种聚类方法, 如基于原型的K-means^[24]聚类方法、基于图的层次聚类^[25]方法、基于密度的DBSCAN^[26]聚类方法等, 对标签进行对比实验, 选取最优的聚类算法策略。

(2) 标签质量的多种度量方法及其对聚类的影响

本实验通过标签的内容特征、标签的社会化特征、包含标签的博文频次(DF)及标签出现的总次数这几个方面度量标签的质量。实验结果表明标签的内容特征、社会化特征、标签出现的总次数可以度量标签的质量, 但是出现包含标签的博文频次不能度量标签的质量。同时还可以考虑标签的语义关联、标签在博文的深度、标签被用户标注的数量等其他因素。

(3) 标签聚类算法中引入高质量标签贡献机制

对标签的社会化属性采用不同的加权系数进行实验, 结果表明标签社会化属性加权权重系数越高, 高质量标签贡献越大, 标签的聚类结果越高。因此在对标签进行聚类时, 可以通过引入高质量标签贡献机制来提高标签的聚类结果。

5 结语

本文抓取中英文对应的网络博文作为实验数据, 对博文的候选标签进行内容特征和社会特征的抽取及权重计算, 采用不同的标签质量区分策略, 且引入高质量标签贡献机制, 对不同质量的标签集进行聚类及结果评测。实验结果表明, 标签质量的高低对标签聚类结果有重要的影响, 标签的内容与社会化特征、标签出现的总次数能够反映标签的质量, 而出现包含标签的博文频次不能衡量标签的质量, 且社会化属性权重的增加能够提高标签聚类结果。在对海量的标签进行标签聚类的时候, 应对标签质量采用多种度量方法, 引入高质量标签贡献机制, 比较不同的标签聚类算法, 从而提高标签的聚类结果。

参考文献

View Option

[1]	Peters I. Folksonomies: Indexing and Retrieval in Web 2. 0[M]. Walter de Gruyter, 2009. [本文引用:1]
[2]	Liu Y, Liu M, Chen X, et al. Automatic Tag Recommendation for Weblogs [C]. In: Proceedings of International Conference on Information Technology and Computer Science (ITCS 2009). 2009: 546-549. [本文引用:1]
[3]	Li Z, Zhou D, Juan Y F, et al. Keyword Extraction for Social Snippets [C]. In: Proceedings of the 19th International Conference on World Wide Web. 2010: 1143-1144. [本文引用:1]
[4]	Carmel D, Uziel E, Guy I, et al. Folksonomy-based Term Extraction for Word Cloud Generation [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2012, 3(4): Article No. 60. [本文引用:1]
[5]	Gemmell J, Shepitsen A, Mobasher M, et al. Personalization in Folksonomies Based on Tag Clustering [C]. In: Proceedings of the 6th Workshop on Intelligent Techniques for Web Personalization and Recommender Systems. 2008. [本文引用:1]
[6]	Shepitsen A, Gemmell J, Mobasher B, et al. Personalized Recommendation in Social Tagging Systems Using Hierarchical Clustering [C]. In: Proceedings of the 2008 ACM Conference on Recommender Systems. 2008: 259-266. [本文引用:2]
[7]	Wang J, Hong L, Davison B D. RSDC’09: Tag Recommendation Using Keywords and Association Rules [C]. In: Proceedings of ECML PKDD 2009 Discovery Challenge Workshop. 2009: 261-274. [本文引用:1]
[8]	Kim H N, El Saddik A. Exploring Social Tagging for Personalized Community Recommendations[J]. User Modeling and User-Adapted Interaction, 2013, 23(2-3): 249-285. [本文引用:1]
[9]	李蕾, 章成志. 社会化标签质量评估研究综述[J]. 现代图书情报技术, 2013(11): 22-29. (Li Lei, Zhang Chengzhi. Survey on Quality Evaluation of Social Tags[J]. New Technology of Library and Information Service, 2013(11): 22-29. ) [本文引用:2]
[10]	Sen S, Vig J, Riedl J. Learning to Recognize Valuable Tags [C]. In: Proceedings of the 14th International Conference on Intelligent User Interfaces. 2009: 87-96. [本文引用:2]
[11]	Chen X, Shin H. Extracting Representative Tags for Flickr Users[C]. In: Proceedings of the 2010 IEEE International Conference on Data Mining Workshops (ICDMW). 2010: 312-317. [本文引用:1]
[12]	李丕绩, 马军, 张冬梅, 等. 用户评论中的标签抽取以及排序[J]. 中文信息学报, 2012, 26(5): 14-19. (Li Piji, Ma Jun, Zhang Dongmei, et al. Extraction and Ranking of Tags for User Opinions[J]. Journal of Chinese Information Processing, 2012, 26(5): 14-19. ) [本文引用:1]
[13]	Suchanek F M, Vojnovic M, Gunawardena D. Social Tags: Meaning and Suggestions [C]. In: Proceedings of the 17th ACM Conference on Information and Knowledge Management. 2008: 223-232. [本文引用:1]
[14]	Begelman G, Keller P, Smadja F. Automated Tag Clustering: Improving Search and Exploration in the Tag Space[C]. In: Proceedings of the Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland . 2006: 15-33. [本文引用:1]
[15]	Cui J, Liu H, He J, et al. TagClus: A Rand om Walk-based Method for Tag Clustering[J]. Knowledge and Information Systems, 2011, 27(2): 193-225. [本文引用:1]
[16]	Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web [C]. In: Proceedings of the 2nd ACM International Conference on Web Search and Data Mining. ACM, 2009: 54-63. [本文引用:1]
[17]	曹高辉, 焦玉英, 成全. 基于凝聚式层次聚类算法的标签聚类研究[J]. 现代图书情报技术, 2008 (4): 23-28. (Cao Gaohui, Jiao Yuying, Cheng Quan. Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm[J]. New Technology of Library and Information Service, 2008 (4): 23-28. ) [本文引用:1]
[18]	Sbodio M L, Simpson E. Tag Clustering with Self Organizing Maps [R]. Hewlett-Packard Development Company, LP, 2009. [本文引用:1]
[19]	Zong Y, Xu G, Jin P, et al. APPECT: An Approximate Backbone-based Clustering Algorithm for Tags [C]. In: Proceedings of the 7th International ADMA Conference, Beijing, China. Springer. 2011: 175-189. [本文引用:1]
[20]	Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. [本文引用:2]
[21]	何文静, 何琳. 基于社会标签的文本聚类研究[J]. 现代图书情报技术, 2013(7-8): 49-54. (He Wenjing, He Lin. Research on Text Clustering Based on Social Tagging[J]. New Technology of Library and Information Service, 2013 (7-8): 49-54. ) [本文引用:1]
[22]	Frey B J, Dueck D. Clustering by Passing Messages Between Data Points[J]. Science, 2007, 315(5814): 972-976. [本文引用:2]
[23]	Tan P N, Steinbach M, Kumar V. 数据挖掘导论[M]. 范明, 范宏建译. 北京: 人民邮电出版社, 2006: 340-341. (Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [M]. Translated by Fan Ming, Fan Hongjian. Beijing: Posts & Telecom Press, 2006: 340-341. ) [本文引用:3]
[24]	MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations [C]. In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297. [本文引用:1]
[25]	Kaufman L, Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis[M]. John Wiley & Sons, 2009. [本文引用:1]
[26]	Ester M, Kriegel H P, Sand er J, et al. A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise [C]. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). 1996: 226-231. [本文引用:1]

2009

0.0

... 目前, 研究者从社会化标签的分布与特点^[1]、社会化标签的自动生成^[2,3,4]、基于社会化标签的个性化推荐^[5,6,7,8]等方面进行了比较深入的研究, 但还存在一系列尚需解决的问题 ...

2009

0.0

2010

0.0

2012

0.0

2008

0.0

2008

0.0

... Shepitsen等^[6]提出了一个个性化推荐算法依赖分层标记集群大众分类 ...

2009

0.0

2013

0.0

. , 2013(11):22-29

Survey on Quality Evaluation of Social Tags

Li Lei , Zhang Chengzhi.

李蕾, 章成志

This article aims to summarize the quality of social tags. Firstly, the background of the tags quality assessment issues is expounded. Secondly, the existing methods of tags quality assessment are summarized and compared, and the problems of the tags quality assessment are pointed out. Finally the social tags quality evaluation studies and the future direction of development are put forward.

旨在对有关社会化标签质量相关研究进行总结，首先阐述社会化标签质量评估问题的产生背景，然后对现有社会化标签质量评估方法进行总结与比较分析，指出社会化标签质量评估中存在的问题，对社会化标签质量评估研究和未来发展方向提出展望。

... 对于社会化标签质量评估的研究, 李蕾等^[9]总结了以下8个方面的工作: ...

... 同时还对不同的标签质量评估方法进行比较与分析, 指出现有的社会化标签质量评估研究工作的不足之处在于标签质量评估没有结合标签的应用场合、标注资源的类型特点、标签自身的分类及用户的标注动机^[9] ...

2009

0.0

... 对于机器抽取标签质量评估, 较客观的评价方法是将机器生成的标签集合与领域专家标注的关键词集合通过对比来进行评价^[10] ...

... 研究者通过标签的文本特征(如标签出现的频率、比例等)实现标签抽取, 如Sen等^[10]通过对标签的打分及标签的文本特征发现高质量的标签并利用表现最好的标签抽取算法得到了高质量的标签, 并将其发布在网络上 ...

2010

0.0

... Chen等^[11]针对向Flickr用户推荐标签的问题, 结合标签文本特征(如标签频率)及社会特征(标签在用户中的共现频率), 使用贝叶斯分类法为用户推荐与其兴趣相关的标签, 文本特征可以提高标签的质量, 社会特征可以发现用户与社会活动的相关信息 ...

2012

0.0

. 2012, 26(5):14-19 DOI:doi:10.3969/j.issn.1003-0077.2012.05.003

Extraction and Ranking of Tags for User Opinions

用户评论中的标签抽取以及排序

Li Piji , Ma Jun , Zhang Dongmei

李丕绩, 马军, 张冬梅

对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。

... 另外一部分研究者对产品评论进行标签抽取, 如李丕绩等^[12]提出了一种能够为每个实体抽取特征标签的方法, 并且通过语义去重, 保证标签在语义空间内相互独立 ...

2008

0.0

... 还有利用被标记的网页之间的联系实现标签抽取, 如Suchanek等^[13]分析标签之间的语义属性及标签与被标记网页之间的关系来发现标签, 基于网页语料的关键词、内容及标签建立了一个标签推荐影响力的评估模型 ...

2006

0.0

... Begelman等^[14]将标签共现用作相似性度量, 并构建一个无向加权图, 对图形分区然后获得集群 ...

2011

0.0

... Cui等^[15]基于链接图对标签进行分类, 提出一种TagClus的聚类方法 ...

2009

0.0

... 如Ramage等^[16]利用K-means聚类算法社会化标签进行聚类、曹高辉等^[17]利用凝聚式层次聚类算法进行标签聚类 ...

2008

0.0

. 2008, (4):23-28 DOI:doi:10.3969/j.issn.1003-3513.2008.04.005

Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm

基于凝聚式层次聚类算法的标签聚类研究

Cao Gaohui , Jiao Yuying , Cheng Quan.

曹高辉, 焦玉英, 成全

对标签、标注、大众分类等概念进行界定,指出现有标签标注系统中存在着标签描述信息的精确度不高、标签检索结果相关度低、标签缺乏有效组织等问题,提出采用凝聚式聚类算法对标签聚类,从而实现对标签的重新组织,为用户提供更好的标签导航、浏览机制.最后通过实验对标签聚类方法进行验证.

... 如Ramage等^[16]利用K-means聚类算法社会化标签进行聚类、曹高辉等^[17]利用凝聚式层次聚类算法进行标签聚类 ...

2009

0.0

... Sbodio等^[18]利用自组织映射(SOM)模型对Delicious网站上的标签进行聚类 ...

2011

0.0

... Zong等^[19]使用近似骨架标签聚类结果, 找出更好的标记集群, 并提出一个近似骨架为基础的聚类算法标签(APPECT) ...

1975

0.0

... IDF^[20]作为其权重, 词条i在文档D_j标题中出现的频次、在全文中出现的频次, 且出现在不同位置被赋予不同的权重, L_T、L_F为文档D_j标题和全文长度, W_T、W_F分别取2和1 ...

... 3 相似度计算本实验采用基于向量余弦值^[20]的方法进行相似度计算, 用一个特征向量表示标签, 对于任一特征表示标签集中的两个标签向量为 , 它们之间的向量余弦值为: ...

2013

0.0

. 2013, (7-8):49-54

Research on Text Clustering Based on Social Tagging

He Wenjing , He Lin.

何文静, 何琳

In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by K-means, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging is discussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.

以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。

... 当两向量余弦值越大时, 两标签的相似度越高, 被归为同一类别的可能性越大^[21] ...

2007

0.0

... 这是Frey和Dueck在Science杂志上提出一种新的聚类算法Affinity Propagation (AP)^[22] ...

... 如果取最小值, 得到类数较少的聚类^[22] ...

2006

0.0

... 对于每个簇, 首先计算数据的类分布, 即对于簇i, 计算簇i的成员属于类j的概率^[23]: ...

... 其中, K是簇的个数, 而m是数据点的总数^[23] ...

... 簇i的纯度和聚类的总纯度^[23]分别是: ...

1967

0.0

... 研究者在对标签聚类时可以选择多种聚类方法, 如基于原型的K-means^[24]聚类方法、基于图的层次聚类^[25]方法、基于密度的DBSCAN^[26]聚类方法等, 对标签进行对比实验, 选取最优的聚类算法策略 ...

2009

0.0

1996

0.0