社会化标签质量评估研究综述
李蕾, 章成志
南京理工大学信息管理系 南京 210094
摘要

旨在对有关社会化标签质量相关研究进行总结,首先阐述社会化标签质量评估问题的产生背景,然后对现有社会化标签质量评估方法进行总结与比较分析,指出社会化标签质量评估中存在的问题,对社会化标签质量评估研究和未来发展方向提出展望。

关键词: 社会化标签; 质量评估; 用户生成内容; Web2.0
Survey on Quality Evaluation of Social Tags
Li Lei, Zhang Chengzhi
Department of Information Management, Nanjing University of Science & Technology, Nanjing 210094, China
Abstract

This article aims to summarize the quality of social tags. Firstly, the background of the tags quality assessment issues is expounded. Secondly, the existing methods of tags quality assessment are summarized and compared, and the problems of the tags quality assessment are pointed out. Finally the social tags quality evaluation studies and the future direction of development are put forward.

Keyword: Social tags; Quality evaluation; User generated content; Web2.0
1 引 言

社会化标注系统为互联网用户提供了一个便捷的资源描述方式。社会化标签融合了大众智慧,已有研究表明社会化标签对Web 页面的浏览、组织与索引非常有效[ 1]。目前有不少学者利用社会化标签特性,将其用于Web 资源的自动分类、信息检索、信息推荐等不同应用场合,取得了很好的效果[ 2, 3, 4]。与使用受控词汇来组织资源的方式不同,基于社会化标签的数字资源标注和组织资源的方式,成本小并且易扩展。由于互联网用户使用的社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,同时在不同的应用场合用户需要不同的标签类型,因此对标签质量的定义也有所差别。社会化标签的质量问题已成为影响其应用效果的重要因素之一,常见的低质量标签包括:过于个性化的标签、泛滥的垃圾标签和缺乏语义控制的冗余标签等。低质量的标签干扰了社会化标注系统中资源组织的秩序,降低了标签在应用场合中的质量和用户满意度。例如,在利用社会化标签辅助Web页面自动标引时标签质量问题会对标引质量产生影响[ 5]

2 研究背景
2.1 社会化标签质量问题的产生背景

社会化标签通常由用户自由标引产生,采用的是非受控词汇,由于用户可以从各个不同的角度对资源进行标注,生成了各种类型的标签,在实际应用中用户需要不同类型的标签,并且在不同标签类型中存在许多标签质量问题,有很多低质量标签的存在。需要通过标签进行资源的组织和检索,与资源相关的主题性标签才是需要的高质量社会化标签。低质量标签是指“一些用户生成的标签是正常用户不愿意分享的或者是引起用户检索出错误结果的标签”[ 6]。具体来说,社会化标注中存在如下问题[ 7]:

(1)标注用户本身的标注行为导致的质量问题

①标注过于主观:某些标签与被标记的网络资源可能没有语义上的关系,只是用户随意标注的结果。标签过于主观或者个性化,不利于标注资源的共享。例如“read in 2012”和“unread”等标签被用户用于记录某本书的阅读时间或者是阅读状态。

②拼写错误:通常为用户粗心导致的单词书写错误。如“official”误写为“offical”。

③垃圾标签现象:通常为用户标注的资源和所给标签是用户人为标注的一些无意义的词语。例如新浪微博上“电话1860054****”、“qq84608****”。

(2)标注系统缺乏语义规范导致的质量问题

①多义词标注问题:由于非受控词汇的歧义性和多义性,同一个标签可能会有许多截然不同的意思,这导致了标签含义的不确定性。例如“tiger”这个标签被用户用于标注网络上有关老虎的资源,而又被另外一些用户用来标记高尔夫球员老虎·伍兹。

②同义词标注问题:由于同一个意思可以用不同形式的词语表示,加之词语时态和语态上的变化,以及一些上下位关系词的存在,会产生许多冗余标签,例如像“blog”和“weblog”、“interested”和“interesting”,都属于同义词。

为了解决上述标签质量问题,需要有效的标签质量评估方法,在实际应用中,尽量使用质量较好的标签,以提高其实际应用效果。

2.2 社会化标签质量评估的问题界定

通过上述分析可以看出,用户对资源的标注结果中存在很多问题,包括由于标注用户本身的原因导致的,也包括由于标注系统缺乏语义规范控制导致的,所以需要进行标签质量的评估,从用户的标注结果中选择出符合用户需要的标签,即为高质量的标签。由于在不同应用场合用户的标注动机不同,需要不同的标签类型,因此需要有针对性地选择出用户需要的标签类型目前尚缺乏关于标签类型划分的统一标准,但总体来说,标签可以分为4大类型,即:客观标签,描述标注对象的客观信息;主观标签,用户标记对于资源的主观评价;自我组织的标签,用于自身信息组织与提醒;其他类型的标签,包括缩写词和垃圾标签。,基于此对选择出来的标签进行质量评估,生成高质量的标签。但是基于用户的标注动机的不同,对标签质量的界定也就不同,因此应该结合语境和语用进行标签质量评估,不能笼统地认为标签只分为高质量的标签和低质量的标签,对同一个标签不同的用户会有不同的质量判定,所以在进行标签质量的评估中需要进行分级判定,选择出高级数的标签,即为满足大部分用户的高质量标签。

3 标签质量评估研究总结
3.1 标签质量评估研究概述

首先对现有的研究中,社会化标签质量评估涉及到的媒体类型、语种和使用的语料规模进行统计,从中发现现有研究对象的特点,并对其中存在的问题进行分析。其中,语料规模是指现有研究中进行标签质量评估所使用的评估对象类型和数量,通过文献调研,对标签质量评估的媒体类型、语种和语料规模统计如表1所示:

表1 标签质量评估的媒体类型、语种和语料规模

从上述总结中可以发现,现有的对标签质量评估主要集中在文本类型的资源中,例如图书、URL、论文等,而对于视频、图片、音乐等非文本类型的资源少有此类研究;对标签质量研究中主要对英文标签进行评估,而对于中文等其他语种资源的评估缺乏;在标签质量评估中都是基于固定数量的语料规模进行,进而就不能确保所利用质量评估方法普遍适用。因此,在以后的标签质量研究中应该针对这些问题进行更加深入的研究。

3.2 标签质量评估方法分类

鉴于标签存在上述的问题,近年来,标签质量评估研究逐步引起学术界的重视。本文对这些研究工作进行系统梳理,将标签质量评估方法进行了划分。标签质量评估方法总体上可以分为人工评价和自动评价两类方法。其中:人工评价方法是在用户参与下通过人工评估系统进行;自动评价可以从无参照评估和有参照评估两个方面进行,自动评价方法既可以只通过标签自身进行无参照评价,也可以将标签和其他的资源结合进行评估。标签质量评估的分类结果、不同方法所依据的资源、评估方法或者使用到的评价指标等关键信息如表2所示:

表2 标签质量评估方法的分类表

本文首先对各种代表性方法进行概述,然后对其进行比较分析。

(1)不同的标签质量评估方法概述

①利用人工评价来评估标签的质量。代表性工作为:Lee等、Sen等依据用户在线评价结果,对标签质量进行评估。其中:2007年,Lee等[ 8]对标注资源已有标签添加支持或反对的标记,进而得到标签的质量评估结果;同年,Sen等[ 10]对不同的标签质量人工评估系统进行人工比较,从而提出标签系统的界面改进意见,达到提高标签质量的目的。此方法准确度高,可以基于用户的需求来评判出高质量标签,但需要较多用户参与,难以实施,不能进行大规模的应用,因此该方法只适用于一些测试数据的收集。

②基于标签自身统计属性来评估标签的质量。代表性工作包括:2009年,Zhang等[ 11]提出标签的三个统计属性可以用来衡量标签质量,即中心性(被高频率地应用于标记资源的标签)、频率(为某一个资源的高频率标签)与熵(选择中等信息熵的标签,既不会太普遍也不会太专指);2010年, Belém等[ 13]利用标签共现(两个标签同时出现的频率)、标签稳定性(确保标签既不太普遍也不太专指,保持稳定的状态)、标签描述力(衡量标签是否同时出现在标题和描述中)等三个指标提高标签质量;2011年,孙珂[ 14]将明晰度、TF-IDF度量以及信息增益等三种指标用于评估标签质量。相对于人工评价方法,基于标签自身统计属性的评价方法可以在大规模数据上快速得到实施和验证,还可解决一部分主观性标签和垃圾标签的问题。然而,该方法没有考虑用户标注动机、标注对象类型等因素。

③依据规范词语进行隐含的质量评估。通过输入提示、拼写检查、标签推荐等方式,对用户输入的标签进行在线实时评估,从而减少拼写错误或垃圾标签,或通过词汇控制手段提高标签质量。代表性工作包括:2006年,Guy等[ 31]建议给用户进行一些打标签的指导,来提高标签的质量;2011年,徐静等[ 32]利用叙词表作为用户打标签的参考资源,对标签进行了质量的划分;2012年,黄如花等[ 33]从大小写限制、标签拼写提示以及帮助信息等7个方面对标签质量控制方式进行比较,并给出单词拼写提示、规范标签提示等提高标签质量的方法;同年,吴方枝[ 39]总结提高标签质量的方法,包括词汇控制、检错机制等。此方法主要利用与规范词的比对来进行标签质量的评估,通过对标签的自动检错来杜绝低质量标签的产生,可以对用户标注进行实时控制,但无法有效处理主观标签和垃圾标签。

④依据标签和主题词的比较进行评估。如果标签与主题词表中的主题词重合率高,则认为标签的质量高,反之标签的质量低。代表性工作包括:2009年,Lawson[ 22]从OCLC WorldCat提供的各个学科类别的角度,将美国国会图书馆标题表中的主题词和Amazon、LibraryThing的标签进比较;同年,Thomas等[ 23]依据7种不同的相似度比较方法,对书目数据的标签和美国国会图书馆标题表中的主题词进行比较;2010年,Lu等[ 24]比较LibraryThing的标签和美国国会图书馆标题表中的主题词,发现两者的重合度只有2.2%;同年,Bartley[ 25]将标签和图书MARC数据进行比较,发现匹配率高的两部分是MARC数据的600字段(主题字段)和245字段(题名说明);2010年,Yi[ 26]依据TF-IDF、余弦相似性、Jaccard指数、互信息、信息半径等5种相似度度量方法,对社会化标签和美国国会图书馆标题表中的主题词进行比较,发现余弦相似性度量方法最有效;2012年,吴丹等[ 27]依据Jaccard指数,对社会化标签、中文 MARC、英文MARC、中国《分类主题词表》和《美国国会图书馆主题词表》等进行比对,结果表明社会化标签和元数据、主题词表的重合率不高,提出了基于元数据和主题词表改进标签质量的方法;Wu等[ 12]分别从中英文的角度将标签与主题词进行比较,结果显示两者之间有较高的重合率。同年,Lee等[ 28]利用231 388篇论文对标签与美国国会图书馆标题表中的主题词进行比较,结果显示每一个文章标签的平均数量远小于主题词,两者重合率很低。该方法依据权威的主题词表进行评价,结果比较客观,但由于主题词表更新速度慢、且覆盖范围有限,不能有效地对新标签进行质量评估。

⑤依据用户标签与专家标注结果的比较结果进行评估。代表性工作包括:2011年,Hall等[ 15]提出利用专业人士标注结果(即:依据受控词汇对标注资源进行标引的结果)与社会标签进行比较,发现两者异同,进而将两者结合提高标签质量;同年,Chen[ 29]将标签和档案机构提供的专业关键词进行比较,结果表明两者重合率达40%。相对于主题词表的稳定性,专家和商业机构提供的标签可以根据实际情况变化,进行及时的更新。

⑥依据标签与文本内容关键词的比较进行评估。利用关键词抽取技术抽取文本的关键词,如果标签和关键词相似性高,则认为标签的质量高。代表性工作包括:2006年,Al-Khalifa等[ 16]将机器抽取出的关键词与社会化标签进行重合度计算;2009年,Syn 等[ 30]依据余弦相似度,对学术论文的关键词和标签进行了比较研究;同年,丁婉莹等[ 17]依据用户打分方式或使用搜索引擎,来度量机器抽取的关键词与社会化标签的相似度;2011年,Lai等[ 9]从社会媒体的用户评论中提取关键词,将其与产品的社会化标签进行比较,从而衡量标签与大众评论意见是否一致,由此评估标签的质量。该方法不依赖于主题词表和专家标注等资源,成本低但评估效果依赖于文本的关键词抽取质量。

⑦基于信息检索的方式来评估标签质量。代表性工作包括:2007年,Koutrika等[ 34]将标签作为查询式提交到搜索引擎,依据返回结果的网页排名来评估标签质量;2008年,Li等[ 35]依据标签在文档中的匹配率来评估标签质量;同年,Van Damme等[ 18]依据标签频率、标签同意度(某个资源的某个标签的频率除以这个资源打标签的人数)、TF-IRF(TF-IDF的延伸,利用标签的频率和资源数来计算)三个指标来综合评估标签质量;2010年,Noh等[ 36]将检索系统每天总访问数、某一查询式作为查询的概率、资源被这个查询式查询出来的概率三者的乘积,作为标签的质量评估依据;2012年,Yi等[ 19]计算搜索引擎中用户查询式与社会化标签之间的相似性和重合度,结果显示标签和Web查询式关系紧密,可以将质量高的社会化标签应用到信息检索中。利用信息检索的方式来评估标签的质量,成本低,但效果受制于搜索引擎本身的搜索质量和资源覆盖面。

⑧基于用户、资源、标签三者关系来评估标签质量。代表性工作包括:2006年,Xu等[ 37]向用户分配权重值,每一个标签的质量就是使用这个标签的用户权重值总和;2008年,Krestel等[ 20]利用资源、标签、用户三者之间的关系,依据PageRank算法的变种方法——TRP-Rank算法迭代计算出每个标签-资源对的质量得分;2010年,覃希等[ 38]将隐藏在正常用户群体中的垃圾投放人检测出来,以此减少垃圾标签数量,结果表明,基于支持向量机的垃圾标签检测模型具有较高的分类精度;2011年,Gu等[ 7]通过打标签者的可信度、网页之间的语义相似性、标签之间的语义相似性三个因素度量标签的可信度;2012年,李劲等[ 21]提出通过分析文档之间的语义相似度以及标签之间的语义相似度,对标注质量进行量化评估的算法。相对于其他方法,该方法充分考虑用户、资源、标签三者之间的联系,但同时该方法对这三种资源有较强的依赖性。

(2)不同的标签质量评估方法的比较

通过上述总结,可以看出不同的评估方法依赖于不同资源或评估参数。在实际使用中,可以根据现有资源,选择适合的评估方法。现将各个方法的优缺点总结如表3所示:

表3 标签质量评估方法比较

表3可以看出人工评估准确性高,并且可以结合用户自身的喜好选择质量高的标签,但是实施起来费时费力。自动进行标签质量评估中,基于标签本身的评估,实施起来方便,但是评估过程过于片面;将标签和其他资源结合进行质量评估,由于结合的其他资源本身的限制,对标签质量都不能进行全面准确的评估,每种方法各有利弊。应根据实际情况选择合适的方法进行标签质量评估。

4 现有研究存在的问题

从目前的研究可以看出标签质量的评估还存在很多问题,缺乏系统化的研究。目前的标签质量评估研究仅是基于标签本身,尚未针对不同的应用场合、不同的标签类型、不同的标注对象类型、不同用户标注动机等情况进行相应的研究。在进行标签质量评估时应根据以上不同情形,进行有针对性的评估研究,以适应不同应用的需求。

(1)没有区分应用场合对标签进行质量评估

对用户来说,在不同的应用场合,标签质量评估的标准是不同的,例如:在图书标注网站上,用户可以选择一些情感类的词来对图书进行标注,显然这类情感词并不利于用户查找到相关领域的图书;但对于电子商务网站来说,其他用户标注的情感词汇可以帮助用户决策此商品的好坏。因此在实际应用场合,应该给出更符合该场合的标签质量评估方法。

(2)没有区分标注对象的类型特点进行有针对性的质量评估

现在可以标注的网络资源类型丰富,有图书、商品、博文、网页、图片、视频等,不同类型的标注对象各有自己的特点,尤其是对于图片视频等非文本信息标签质量的评估涉及到语义信息的获取,更加需要有针对性的标签质量评估方法。

(3)没有区分标签自身的类型进行有区别的质量评估

社会化标签可以划分为客观标签、主观标签、自我组织标签[ 40]。其中客观标签用于描述标注对象的客观信息,主观标签用于用户标记对于资源的主观评价,自我组织的标签用于自身信息组织与提醒。在不同的应用环境下需要不同的标签类型,在标签质量的评估中应该根据实际要求,剔除不符合要求的标签类型,提高标签质量评估的效率。

(4)缺少对用户标注动机与标签质量之间关系的研究

对于不同标注动机的用户来说其使用标签的目的不同,所以对于标签质量的要求也不同,现有的研究,主要针对标签自身,很少将用户标注动机这类根源性因素考虑进来,而该因素是解决标签质量问题的关键问题之一。

(5)缺少社会化标签质量评估的公开测试数据集

由于近几年社会化标签质量评估研究才相继进行,还没有公开的测试数据集供研究者使用,没有形成统一的研究平台,这一现状不利于各种质量评估方法的测试与比较。

5 社会化标签质量评估研究展望

随着社会化媒体资源的日益丰富,关于社会化标签的理论与应用研究将会得到学术界和工业界的持续关注。本文对社会化标签质量评估研究进行展望,总结今后4个可能的研究方向,包括用户标注动机层面、标签自身层面、标注资源层面和标签应用层面,具体说明如下。

(1)标注动机层面:从用户标注的动机来考察标签的质量

Zhu等[ 41]指出当标注用户的标注目的是为以后的用户检索资源,或用于发现其他用户分享的资源时,标签就会是具有描述性的标签;当标注用户的主要目的是交流观点,标签往往更加主观,并且相同资源的标签更倾向于异构。Strohmaier等[ 42]分析用户打标签的两个动机分类和描述,提出了对这两种动机进行衡量的指标,提出利用这些指标过滤出在不同动机下质量高的标签。因此,可以看出用户的动机不同,对于标签质量的要求就不同,在评估标签质量时,需要考虑不同的标注动机。基于用户标注动机的标签质量评估,是一项具有挑战性的工作,亦是今后的发展方向之一。

(2)标签自身层面:标签和其他的用户生成内容的协同评估

Figueiredo等[ 43]、Almeida等[ 44]、Figueiredo等[ 45]学者比较YouTube、Yahoo! Video、LastFM、CiteULike网站用户生成内容的质量,包括用户生成的标题、标签、描述、评论,比较它们对于分类和资源描述的效果,提出每一个维度都可以对其他的维度进行补充,从而提高用户生成内容的质量。标签是用户生成内容(UGC)中的一种形式,现有的标签质量评估研究主要依据标签本身,尚缺乏将标签和UGC中其他的内容进行协同评估。因此,标签和其他的用户生成内容的协同评估,将是标签质量评估研究的一个发展方向。

(3)标注资源层面:关于多媒体信息资源的标签质量评估

随着标签技术的普及,用户标注的对象,不再局限于文字类型资源,当前已经有很多图片、视频多媒体的社会化标注网站,例如Flickr网站(http://www.flickr.com)和YouTube网站(http://www.youtube.com/),都允许用户自由地打标签来分享资源。对图片、视频等多媒体信息资源上的标签质量评估,应该受到重视。

(4)标签应用层面:通过加强标记系统本身的设计来提高标签的质量.

在进行标签系统设计时,通过对界面的优化,提供标签的层次化或结构化信息,从而提高标签的质量[ 46]。因此,可以在目前标签推荐的基础上,进一步进行语义控制,如将单复数、时态、大小写变化的标签自动聚合为一个标签,可以消除冗余标签,提高标注的质量。此外,在用户进行标注时,将相似标注资源链接提供给用户做参考,也可以在一定程度上提高标注的质量。今后的标签系统界面的设计可以更加人性化和智能化,使得标注用户可以在较小的智力开销下,高效地完成标签标注行为。

参考文献
[1] Trivedi A, Rai P, Hal Daumé III, et al. Leveraging Social Bookmarks from Partially Tagged Corpus for Improved Webpage Clustering[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 23): 111-130. [本文引用:1]
[2] Zubiaga A, Martínez R, Fresno V. Getting the Most out of Social Annotations for Web Page Classification[C]. In: Proceedings of the 9th ACM Symposium on Document Engineering (DocEng’09), Munich, Germany. 2009: 74-83. [本文引用:1]
[3] Zhou D, Bian J, Zheng S, et al. Exploring Social Annotations for Information Retrieval[C]. In: Proceedings of the 17th International Conference on World Wide Web, Beijing, China. 2008: 715-724. [本文引用:1]
[4] Zhao S W, Du N, Nauerz A, et al. Improved Recommendation Based on Collaborative Tagging Behaviors[C]. In: Proceedings of the 13th International Conference on Intelligent User Interfaces, Gran Canaria, Spain. 2008: 413-416. [本文引用:1]
[5] Goh D H L, Chua A, Lee C S, et al. Resource Discovery Through Social Tagging: A Classification and Content Analytic Approach[J]. Online Information Review, 2009, 333): 568-583. [本文引用:1] [JCR: 0.939]
[6] Krause B, Schmitz C, Hotho A, et al. The Anti-social Tagger: Detecting Spam in Social Bookmarking Systems[C]. In: Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web. 2008: 61-68. [本文引用:1]
[7] Gu X, Wang X, Li R, et al. Measuring Social Tag Confidence: Is It a Good or Bad Tag?[C]. In: Proceedings of the 12th International Conference on Web-Age Information Management. 2011: 94-105. [本文引用:2]
[8] Lee S E, Han S S. Qtag: Introducing the Qualitative Tagging System[C]. In: Proceedings of the 18th Conference on Hypertext and Hypermedia. 2007: 35-36. [本文引用:1]
[9] Lai V, Rajashekar C, Rand W. Comparing Social Tags to Microblogs[C]. In: Proceedings of the 3rd IEEE International Conference on Privacy, Security, Risk, and Trust, and the 3rd IEEE International Conference on Social Computing. 2011: 1380-1383. [本文引用:1]
[10] Sen S, Harper F M, LaPitz A, et al. The Quest for Quality Tags[C]. In: Proceedings of the 2007 International ACM Conference on Supporting Group Work. 2007: 361-370. [本文引用:1]
[11] Zhang S, Farooq U, Carroll J M. Enhancing Information Scent: Identifying and Recommending Quality Tags[C]. In: Proceedings of the ACM 2009 International Conference on Supporting Group Work. 2009: 1-10. [本文引用:1]
[12] Wu D, He D, Qiu J, et al. Comparing Social Tags with Subject Headings on Annotating Books: A Study Comparing the Information Science Domain in English and Chinese[J]. Journal of Information Science, 2013, 392): 169-187. [本文引用:1] [JCR: 1.238]
[13] Belém F M, Martins E F, Almeida J M, et al. Exploiting Co-occurrence and Information Quality Metrics to Recommend Tags in Web 2. 0 Applications[C]. In: Proceedings of the 19th ACM International Conference on Information and Knowledge Management(CIKM’10). 2010: 1793-1796. [本文引用:1]
[14] 孙珂. 大规模文档标签自动标注技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2011. (Sun Ke. Research on Large-scale Document Automatic Tagging Technologies [D]. Harbin: Harbin Institute of Technology, 2011. ) [本文引用:1] [CJCR: 0.3432]
[15] Hall C E, Zarro M A. What do You Call It? : A Comparison of Library-created and User-created Tags[C]. In: Proceedings of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries. 2011: 53-56. [本文引用:1]
[16] Al-Khalifa H S, Davis H C. Folksonomies Versus Automatic Keyword Extraction: An Empirical Study[C]. In: Proceedings of IADIS Web Applications and Research. 2006: 15-19. [本文引用:1]
[17] 丁婉莹, 贺芳, 冯利飞, 等. 标签与关键词相似度对比分析[J]. 情报理论与实践, 2009, 3210): 111-114. (Ding Wanying, He Fang, Feng Lifei, et al. Comparative Analysis of the Tags and Keywords Similarity[J]. Information Studies: Theory & Application, 2009, 3210): 111-114. ) [本文引用:1] [CJCR: 1.5]
[18] Van Damme C, Hepp M, Coenen T. Quality Metrics for Tags of Broad Folksonomies[C]. In: Proceedings of the International Conference on Semantic Systems (I-Semantics). 2008: 118-125. [本文引用:1]
[19] Yi K, Yoo C Y. An Empirical Examination of the Associations Between Social Tags and Web Queries[J/OL]. Information Research, 2012, 17(3). http://informationr.net/ir/17-3/paper527.html#.UUFqHrLxXdI. [本文引用:1]
[20] Krestel R, Chen L. The Art of Tagging: Measuring the Quality of Tags [C]. In: Proceedings of the 3rd Asian Semantic Web Conference. 2008: 257-271. [本文引用:1]
[21] 李劲, 张华, 吴浩雄, 等. 基于社会标注质量的文本分类模型框架[J]. 计算机应用, 2012, 325): 1335-1339. (Li Jin, Zhang Hua, Wu Haoxiong, et al. Text Classification Model Framework Based on Annotation Quality[J]. Journal of Computer Applications, 2012, 325): 1335-1339. ) [本文引用:1] [CJCR: 0.646]
[22] Lawson K G. Mining Social Tagging Data for Enhanced Subject Access for Readers and Researchers[J]. The Journal of Academic Librarianship, 2009, 356): 574-582. [本文引用:1]
[23] Thomas M, Caudle D M, Schmitz C M. To Tag or not to Tag?[J]. Library Hi Tech, 2009, 273): 411-434. [本文引用:1]
[24] Lu C, Park J R, Hu X. User Tags Versus Expert-assigned Subject Terms: A Comparison of LibraryThing Tags and Library of Congress Subject Headings[J]. Journal of Information Science, 2010, 366): 763-779. [本文引用:1] [JCR: 1.238]
[25] Bartley P. Book Tagging on LibraryThing: How, Why, and What are in the Tags?[J]. Proceedings of the American Society for Information Science and Technology, 2009, 461): 1-22. [本文引用:1]
[26] Yi K. A Semantic Similarity Approach to Predicting Library of Congress Subject Headings for Social Tags[J]. Journal of the American Society for Information Science and Technology, 2010, 618): 1658-1672. [本文引用:1] [JCR: 2.005]
[27] 吴丹, 林若楠, 冯倩然, 等. 社会标签的规范性研究——图书标注[J]. 图书馆论坛, 2012, 321): 1-7. (Wu Dan, Lin Ruonan, Feng Qianran, et al. The Stand ardization of Social Tagging: A Study on Tagging Books[J]. Library Tribune, 2012, 321): 1-7. ) [本文引用:1] [CJCR: 2.213]
[28] Lee D H, Schleyer T. Social Tagging is no Substitute for Controlled Indexing: A Comparison of Medical Subject Headings and CiteULike Tags Assigned to 231388 Papers[J]. Journal of the American Society for Information Science and Technology, 2012, 639): 1747-1757. [本文引用:1] [JCR: 2.005]
[29] Chen S. User Tagging for Digital Archives: The Case of Commercial Keywords from the Grand Secretariat[C]. In: Proceedings of the 13th International Conference on Asia-Pacific Digital Libraries. 2011: 158-167. [本文引用:1]
[30] Syn S Y, Spring M B. Tags as Keywords - Comparison of the Relative Quality of Tags and Keywords[J]. Proceedings of the American Society for Information Science and Technology, 2009, 461): 1-19. [本文引用:1]
[31] Guy M, Tonkin E. Folksonomies: Tidying up Tags? [J/OL]. D-Lib Magazine, 2006, 12(1). http://www.dlib.org/dlib/january06/guy/01guy.html. [本文引用:1]
[32] 徐静, 卢章平. 基于Folksonomy的信息组织及其优化[J]. 新世纪图书馆, 20114): 34-36, 46. (Xu Jing, Lu Zhangping. Information Organization and Optimization Based on Folksonomy[J]. New Century Library, 20114): 34-36, 46. ) [本文引用:1] [CJCR: 0.6797]
[33] 黄如花, 任其翔. WorldCat热门标签的调查与分析[J]. 图书与情报, 20125): 7-10. (Huang Ruhua, Ren Qixiang. Survey and Analysis of WorldCat’s Popular Tag[J]. Library and Information, 20125): 7-10. ) [本文引用:1] [CJCR: 1.3855]
[34] Koutrika G, Effendi F A, Gyngyi Z, et al. Combating Spam in Tagging Systems[C]. In: Proceedings of the 3rd International Workshop on Adversarial Information Retrieval on the Web. 2007: 57-64. [本文引用:1]
[35] Li X, Guo L, Zhao Y E. Tag-based Social Interest Discovery[C]. In: Proceedings of the 17th International Conference on World Wide Web. 2008: 675-684. [本文引用:1]
[36] Noh T G, Lee J K, Park S B, et al. Tag Quality Feedback: A Framework for Quantitative and Qualitative Feedback on Tags of Social Web [C]. In: Proceedings of the 11th Pacific Rim International Conference on Artificial Intelligence, Daegu, Korea. 2010: 637-642. [本文引用:1]
[37] Xu Z, Fu Y, Mao J, et al. Towards the Semantic Web: Collaborative Tag Suggestions[C]. In: Proceedings of the Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland . 2006. [本文引用:1]
[38] 覃希, 夏宁霞, 苏一丹. 基于支持向量机的垃圾标签检测模型[J]. 计算机应用研究, 2010, 2710): 3893-3895. (Qin Xi, Xia Ningxia, Su Yidan. SVM-based Social Spam Detection Model[J]. Application Research of Computers, 2010, 2710): 3893-3895. ) [本文引用:1] [CJCR: 0.601]
[39] 吴方枝. Flickr网站用户标签的质量控制对策[J]. 图书馆学研究, 201211): 26-28. (Wu Fangzhi. The Flickr Website’s Quality Control Measures of Users Tags [J]. Research on Library Science, 201211): 26-28. ) [本文引用:1]
[40] Sen S, Lam S K, Rashid A M, et al. Tagging, Communities, Vocabulary, Evolution[C]. In: Proceedings of the 20th Anniversary Conference on Computer Supported Cooperative Work. ACM, 2006: 181-190. [本文引用:1]
[41] Zhu H, Wu H. Sloppy Tags and Metacrap? Quality of User Contributed Tags in Collaborative Social Tagging Systems [C]. In: Proceedings of the 15th Americas Conference on Information Systems. 2009. [本文引用:1]
[42] Strohmaier M, Krner C, Kern R. Understand ing Why Users Tag: A Survey of Tagging Motivation Literature and Results from an Empirical Study[J]. Journal of Web Semantics: Science, Services and Agents on the World Wide Web, 2012, 17: 1-11. [本文引用:1]
[43] Figueiredo F, Belém F, Pinto H, et al. Evidence of Quality of Textual Features on the Web 2. 0[C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management(CIKM’09). 2009: 909-918. [本文引用:1]
[44] Almeida J, Goncalves M A, Figueiredo F, et al. On the Quality of Information for Web 2. 0 Services [J]. IEEE Internet Computing, 2010, 146): 47-55. [本文引用:1] [JCR: 2.039]
[45] Figueiredo F, Pinto H, Belém F, et al. Assessing the Quality of Textual Features in Social Media[J]. Information Processing & Management, 2013, 491): 222-247. [本文引用:1] [JCR: 0.817]
[46] Gupta M, Li R, Yin Z, et al. Survey on Social Tagging Techniques[J]. ACM SIGKDD Explorations Newsletter, 2010, 121): 58-72. [本文引用:1]