基于网络协作标注的标签消歧方法述评
窦玉萌
首都图书馆 北京 100021
摘要

以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。

关键词: 网络协作标注; 标签消歧; 知识组织; 聚类; 概率模型
Review on Tag Meaning Disambiguation Methods Based on Web Collaborative Tagging
Dou Yumeng
Capital Library of China,Beijing 100021,China
Abstract

This paper concerns on tags of Web collaborative tagging and mainly researches on tag meaning disambiguation methods, which are classified into five types:data mining method, statistical method, knowledge organization tools method, control mechanisms method and visualization components method. The five methods are compared in five aspects of users’ participation, disambiguation occasion, disambiguation property, experiment and application, as well as the development prospect.

Keyword: Web collaboration tagging; Tag meaning disambiguation; Knowledge management; Clustering; Probabilistic model

在Web2.0时代,网络协作标注以其简单有效的信息组织方式而备受关注。所谓协作标注,就是用户给网络信息资源添加关键词(其性质是自然语言),并以此来组织这些资源,从而在丰富的网络资源中创建符合每个用户个性化需求的收藏的过程[ 1],这是广大网民互惠互利、充分合作、共同管理网络资源的过程。但由于用户标注具有随意性和多样性,一个标签通常有几种含义,导致标签搜索的准确率较低,解决的办法是引入标签消歧机制,即利用知识组织工具、统计方法或数学模型,联系标签的使用情境,提取能够表征标签语义的信息,通过分析这些信息分解出标签的含义。

1 基于数据挖掘方法消歧

数据挖掘是从大量数据中提取或“挖掘”知识,具体来说它是从存放在数据库、数据仓库或其他信息库中的大量知识中发现有趣知识的过程[ 2]。这里的数据挖掘方法主要集中在聚类技术。

较为典型的是Mika消歧模型[ 3],其基本思路是:对于待消歧标签,将使用它的用户或被它标注的资源按照一

定的数据挖掘模型聚类,理想的状态是表达同一个语义的用户会聚集成一类,具有相似语义的资源会聚集成一类,这样就形成了一个个具有共同语义的类,分析这些类的语义可以得到标签所表达的语义,从而得到了标签的多种含义,即实现了标签消歧。文献[3]采集Del.icio.us中的数据开展实验,利用GN算法(Girvan和Newman设计的算法)将待消歧标签标注的资源聚类,从每类资源的标签中选择10个使用频次最高的标签,用于分析该类资源的语义,实验结果表明该方法可以获得待消歧标签的若干含义。这一研究成果被应用到相关反馈中,即用户使用标签搜索资源时,系统按照该标签的各种含义为搜索结果分类,并通过交互界面呈现给用户,用户可以选择符合自己要求的检索结果集合[ 4]。Hamasaki等人将社会网络和协作标注结合在一起,利用GN算法将使用待消歧标签的用户聚类,从而获得若干用户社区。通过分析和比较这些社区,判断是否表达了不同的语义,从而解决该标签的多义问题[ 5]

Gernmell等人提出将标签聚类作为连接用户和资源的桥梁,计算出每个用户和资源与每个标签类的相关度。用户使用标签搜索资源时,系统会筛选出与该用户相关度较大的标签类,并将与这些类相关度较大的命中资源提供给用户[ 6]。若用户使用的标签具有歧义,通过两步筛选就可以自动过滤掉不符合要求的含义,从而明确该标签的含义。Nauman和Khan发现很多网站利用协作标注或自由分类法产生内容目录,但由于标签具有歧义,因此用户使用这些标签做关键词很难搜索到相关内容。基于机器常识进行查询扩展可以帮助用户找到相关内容,但是不能解决搜索结果的噪声问题。他们认为噪声问题可以采用个性化网络搜索技术解决。在个性化网络搜索中,可以根据用户的搜索历史建立用户的兴趣目录,并从中分析出用户的偏好,据此筛选命中结果集合,并将符合用户偏好的结果反馈给用户[ 7]

2 基于统计分析方法消歧

统计分析是指对所搜集并经过整理的大量统计资料,运用统计特有的方法进行系统的分析研究、判断推理,从定量分析入手,揭示社会经济现象一般特征和规律的过程[ 8]。这类消歧方法是通过借助一定的数学模型统计分析标签的共现数据实现消歧。

Weinberge等人提出了一种概率模型,用于发现与待消歧标签共现、但却在不同的语境中出现过的两个标签[ 9]。如果可以找到这样的两个标签,则说明给定标签是具有歧义的。如果用户使用该标签标注资源,系统就把这两个标签推荐给用户,试图让用户进一步明确标签的含义。这种方法不但可以确定某标签是否具有歧义,还可以帮助用户添加没有歧义的标签。该概率模型的原理是:基于标签共现的频次统计数据生成待消歧标签各种语义的概率分布图,并依据概率模型计算出给定标签的歧义度,找到对概率分布具有重要影响的标签,即为最能揭示待消歧标签某种含义的标签,将其称为消歧度较大的标签。待消歧标签的各种语义用共现标签表征。如图1所示,对于歧义词“Cambridge”(剑桥),共现标签“University”的消歧度不大,即不能明显改变标签集合的概率分布,因此不能认为在样本数据中用户使用标签“Cambridge”的本意是剑桥大学。而共现标签“Massachusetts”(美国马萨诸塞州)和“United Kingdom”(英国)可以明显改变标签集合的概率分布,因此可以断定在样本数据中用户使用标签“Cambridge”表达的本意是地名。

图1 标签“Cambridge”语义的概率分布图[ 9]

Zhang等人构建了一个表征标签语义的向量空间模型,每个分量都是与该标签具有共现关系的标签,每个共现标签对应的值为它在给定标签出现的情况下出现的概率。将该语义模型带入熵的公式,计算标签的歧义度。针对歧义度大的标签,基于分层聚类方法 (Hierarchical Agglomerative Clustering Method,HACM) 模型将与该标签有关系的标签进行等级聚类,从而用等级概念图揭示待消歧标签的各种语义[ 10]

3 利用相关知识组织工具消歧

知识组织工具载有有序化信息,其元素已被规范化,包含多义词的各种语义信息,只要实现协作标注系统中的标签与这些元素的对接,就可以实现标签消歧。这些知识组织工具包括词典和本体。

3.1 利用词典消歧

可用词典有WordNet、维基百科、FrameNet、VerbNet和HowNet等。Lee和Yong认为可以根据WordNet中海量词条的各种语义信息分析标签的含义,实现了标签与WordNet词条的挂接,同时他们开发了软件TagPlus。为测试该软件的性能和验证这种消歧方法的有效性,他们采集Flickr上的数据进行检索实验,结果显示查准率有很大提高[ 11]。后来,他们又开发出专门针对协作标注系统的组件——SynTag[ 12],用于连接标签数据库和WordNet,这进一步推进了该消歧方法的应用进程。一般情况下,维基百科中的每篇文章都是对某一个实体的详尽描述,每篇文章都至少从属于一个目录,同一个目录下面的文章通常讲述的是相同或相似的话题。目录又可以从属于更高一级的目录,从而形成一个等级式的目录结构[ 13, 14]。基于该目录结构建立的目录系统就是一个词典,包含实体条目的歧义信息。协作标注系统与这样的词典挂接后,可以在用户输入某个标签标注资源时,提供该标签的歧义信息。

3.2 利用本体消歧

利用本体的消歧方法是指通过挖掘标签的语义信息构建本体,用本体信息规范标签的多种含义,从而为标签消除歧义。一个实例就是FolksAnnotations Tool Architecture (FAsTA)系统[ 15],它首先明确了本体领域主题,并根据这一主题从Del.icio.us中获取相应的网络资源,抽取这些资源的标签数据,再由系统自动实现标签标准化,包括标签过滤和标签清洗,最后为这些概念化的标签添加语义注解信息,标签就转化为本体概念。本体嵌入到协作标注系统能帮助用户界定标签的含义。Sabou等人认为可以根据语义网的在线本体信息分析标签的含义,但是在线本体的建模错误会影响消歧的效果,因此应用起来比较困难[ 16]。Stojanovic等人提出了一种用社会标注过程支持本体精炼的本体开发方法。为实现标签消歧,他们构建了一个获取标签语境信息的搜索模型,即使用标签作为检索词在资源中进行全文搜索,通过分析上下文获得标签的具体含义[ 17]

4 引入控制机制消歧

标签歧义的产生有很多原因,如错误拼写、用户背景不同、曲解资源等,但根本原因来自于协作标注系统的非受控机制,因此如果系统能够自动或人为介入用户的标注过程,为用户添加、编辑、修改标签提供导向性意见,帮助用户尽量选择规范化的标签,则可避免产生标签歧义。

Marchetti等人认为产生标签歧义现象的根本原因是用户在使用标签时未提供该标签的语义信息。针对这一问题,他们将控制机制引入协作标注系统,开发了语义协作标注系统——Semkey[ 18],该系统要求用户在标注过程中提供标签的语义信息,这样标签在产生时就实现了消歧。有实验表明,人工控制对用户的标注行为具有较大影响,实验过程如下:研究者要求被试为一批资源自由地添加标签,然后研究者为被试提供标准的规范词做参考,再次要求被试为这批资源添加标签,通过比较两次添加的标签发现,后者中的规范词远远多于前者。可见引入控制机制可以影响用户的标签选择,只要保证参考标签的质量,对标签的各种含义都进行全面和准确的诠释,就能实现标签消歧。

5 开发可视化组件消歧

可视化组件可以动态显示标签的频次分布、标签关系以及标注某资源的标签随时间发展的情况,还可以显示用户的社会网络关系,帮助用户从多种角度观察标签。以标签消歧为目标的可视化组件可分为以下两类:

5.1 利用标签分类组织可视化消歧

该方法的原理是:将所有的标签按照多种方法分类组织,歧义标签会出现于多个类别的标签集合里,按照多种分类方法显示就可以分解标签的含义,再以可视化的方式显示出来。如fac.etio.us[ 19]可以为用户提供浏览类属信息的导航页面,将标签按照10个不同的分类标准组织,供用户浏览。当用户输入具有歧义的检索用词时,组件就会分类显示各个类别中的命中结果,如图2所示:

图2 fac.etio.us的检索结果[ 20]

5.2 利用标签关系可视化消歧

该方法的原理是:系统将与待消歧标签密切相关的标签以可视化的方式展示出来,通过浏览相关标签确定待消歧标签的各种含义,从而实现消歧。如可视化组件Graph Del.icio.us Related Tags[ 21],可显示与待消歧标签共现频次较高的标签,比如输入“fellowship”,得到的标签关系如图3所示:

图3 标签“fellowship”的相关标签可视化结果[ 22]

图3中可以看出,fellowship至少有三种含义:

(1)“奖学金”,可以从“fellowship+grants”推知;

(2)“团体”,可以从“fellowship+science”和“fellowship+research”推知;

(3)“伙伴”,可以从“fellowship+graduate”和“fellowship+undergraduate”推知。

此工具的缺点是由于每个分支提供的相关词只有一个,所以有时会由于信息不足无法做出明确的判断。如从“fellowship+social”中就无法确定fellowship指的是社会团体还是社交伙伴。如果在每条线的末端显示更多相关词将有助于明确其含义。

6 结 语

以上5类标签消歧方法各有优缺点,它们的主要区别和联系如表1所示:

表1 标签消歧方法比较

数据挖掘方法和统计分析方法都基于标注数据,是纯粹的定量方法,不需要用户的参与,目前已有一些实验研究结果表明可以实现某些标签的消歧。这两类方法在协作标注领域其他主题的研究中也有应用,如标签推荐与标签排序,均表现出良好的效果。而在相关领域,如搜索引擎的命中结果排序和检索用词推荐等,其价值也已赢得广泛认同。因此笔者推断这两类方法应用于标签消歧发展前景较好,研究者需要探索更有效的挖掘方法和数学模型,扩大实验规模,从而推进这两类消歧方法的广泛应用。另外,这两类方法也存在区别。数据挖掘方法侧重于对历史性数据内部关联规则的挖掘,并利用挖掘结果分析结论的合理性,用户不需要关心挖掘模型,挖掘工具可自动建立方程。统计分析方法则侧重于对已有历史性数据做数学分析,采用数学模型验证假设和发现知识,并将计算和分析的结果作为结论。

知识组织工具方法和控制机制方法的联系和区别如下:

(1)都需要用户参与,前者是让用户做出选择,必要时提供标签的语义信息,而后者需要用户观察分析相关标签后做出决定,因此后者需要用户具有更高的参与度。

(2)都可以在用户标注资源时实现标签消歧,区别是前者是为用户提供知识组织工具作参考,后者是提供其他用户的标注意见作参考。

(3)都可以在标签产生后消歧,区别是前者是在用户选择检索用词时推荐无歧义的标签,后者是利用控制机制驱动用户参考其他用户的标注意见修改标签、消除歧义,这个过程可能重复多次。

(4)都已有一些实验研究成果,但前者利用本体消歧效果不太好,利用词表消歧效果较好,后者实验范围非常有限,被试用户是基于实验目的参与消歧,他们在参与度方面与网络中自由的用户具有很大区别。

总之,这两类方法由于需要用户参与,推广起来比较困难,因此发展前景尚不明朗。

可视化组件方法是以可视化的方式展示标签关系、标注规则和组织结构,可看作是以前4类方法为基础开发的可视化工具,其展示效果依赖于前4类方法的效果。

(1)它不需要用户的参与,通常是在标签产生后构建并展示其关系和结构。

(2)鉴于前4类方法的消歧性质有定量和定性之分,所以可视化组件也是定量定性均有。

(3)专门针对标签消歧的可视化组件很少,目前的组件基本上是研发其他应用工具的副产品,因此消歧效果不是很显著。

(4)从用户的接受意愿上看,可视化方式比较直观,易于获得用户的支持;从开发难度上看,只要前4类方法提供了足够的规则和结构信息,就可以基于这些信息编制可视化程序。

因此综合起来看,可视化组件消歧法具有较好的发展前景。

参考文献
[1] Zauder K, Lazic J L, Zorica M B. Collaborative Tagging Supported Knowledge Discovery[C]. In: Proceedings of the 29th International Conference on Information Technology Interfaces, Cavtat, Croatia. 2007: 437-442. [本文引用:1]
[2] 韩家炜. 数据挖掘: 概念与技术[M]. 北京: 机械工业出版社, 2007: 3-5. [本文引用:1]
[3] Mika P. Ontologies are Us: A Unified Model of Social Networks and Semantics[J]. Journal of Web Semantics, 2007, 5(1): 5-15. [本文引用:1] [JCR: 1.231]
[4] Yeung C M A, Gibbins N, Shadbolt N. Web Search Disambiguation by Collaborative Tagging [EB/OL]. (2008-03-30). [2008-04-24]. http://eprints.ecs.soton.ac.uk/15393/1/ecir2008_paper.pdf. [本文引用:1]
[5] Hamasaki M, Matsuo Y, Nishimura T, et al. Ontology Extraction by Collaborative Tagging with Social Networking[EB/OL]. (2008-03-25). [2008-04-24]. http://ymatsuo.com/papers/www2008hama.pdf. [本文引用:1]
[6] Gernmell J, Shepitsen A, Mobasher B, et al. Personalizing Navigation in Folksonomies Using Hierarchical Tag Clustering[C]. In: Proceedings of Data Warehousing and Knowledge Discovery. Berlin: Springer-Verlag, 2008: 196-205. [本文引用:1]
[7] Nauman M, Khan S. Using Personalized Web Search for Enhancing Common Sense and Folksonomy Based Intelligent Search Systems[C]. In: Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. California: IEEE Press, 2007: 423-426. [本文引用:1]
[8] 张伟. 基础统计学[M]. 西安: 西北大学出版社, 2003: 5. [本文引用:1]
[9] Weinberger K, Slaney M, Zwo R. Resolving Tag Ambiguity [EB/OL]. [2008-12-20]. http://research.yahoo.com/files/ctfp6043-weinberger.pdf. [本文引用:1]
[10] Zhang L, Wu X, Yu Y. Emergent Semantics from Folksonomies: A Quantitative Study[J]. Journal on Data Semantics VI, 2006(6): 168-186. [本文引用:1]
[11] Lee S S, Yong H S. TagPlus: A Retrieval System Using Synonym Tag in Folksonomy[C]. In: Proceedings of the 2007 International Conference on Multimedia and Ubiquitous Engineering. New York: IEEE Press, 2007: 294-298. [本文引用:1]
[12] Lee S S, Yong H S. Component Based Approach to Hand le Synonym and Polysemy in Folksonomy[C]. In: Proceedings of the 7th IEEE International Conference on Computer and Information Technology. California: IEEE Press, 2007: 200-205. [本文引用:1]
[13] Wikipedia[EB/OL]. [2009-03-12]. http://zh.wikipedia.org/w/index.php?title=Wikipedia:%E5%85%B3%E4%BA%8E&variant=zh-tw. [本文引用:1]
[14] 王刚. 自动抽取维基百科文本中的语义关系[D]. 上海: 上海交通大学, 2008. [本文引用:1]
[15] Al-Khalifa H S, Davis H C. FAsTA: A Folksonomy-Based Automatic Metadata Generator [C]. In: Proceedings of 2nd European Conference on Technology Enhanced Learning, Crete, Greece. 2007: 414-419. [本文引用:1]
[16] Sabou M, Gracia J, Angeletou S, et al. Evaluating the Semantic Web: A Task-based Approach[C]. In: Proceedings of Semantic Web. Berlin: Springer-Verlag, 2007: 423-437. [本文引用:1]
[17] Stojanovic L, Stojanovic N, Ma J. An Approach for Combining Ontology Learning and Semantic Tagging in the Ontology Development Process eGovernment Use Case[C]. In: Proceedings of 8th International Conference on Web Information Systems Engineering. Berlin: Springer-Verlag, 2007: 249-260. [本文引用:1]
[18] Marchetti A, Tesconi M, Ronzanona F, et al. Semkey: A Semantic Collaborative Tagging System [EB/OL]. (2007-03-12). [2008-04-24]. http://www2007.org/workshops/paper_45.pdf. [本文引用:1]
[19] Facetious[EB/OL]. [2008-04-24]. http://www.siderean.com/delicious/facetious.jsp. [本文引用:1]
[20] Knowledge Hunter. Faceted Browsing: FAC. ETIO. US[EB/OL]. (2007-01-08). [2009-03-12]. http://knowledge-hunter.blogspot.com/2007/01/facetted-browsing-facetious.html. [本文引用:1]
[21] Graph Del. icio. us Related Tags[EB/OL]. [2009-03-12]. http://hublog.hubmed.org/archives/001049.html. [本文引用:1]
[22] Graph Del. icio. us Related Tags[EB/OL]. [2009-03-12]. http://www.hubmed.org/touchgraphs/deltags.php?start=fellowship. [本文引用:1]