Folksonomy中Tag语义距离测度与可视化研究*
黄微, 高俊峰, 李瑞, 周姗姗
吉林大学管理学院 长春 130022
通讯作者: 黄微 E-mail:hw9009@sohu.com

作者贡献声明:

黄微: 提出研究思路, 设计研究方案, 起草论文;

高俊峰: 开展实验, 起草论文;

李瑞: 采集、处理、分析数据;

周姗姗: 负责论文最终版本修订。

摘要

【目的】探索Folksonomy中标签语义距离的可视化及测度, 为进一步研究优化关联标签导航算法奠定基础。【应用背景】针对语义距离可视化方法弱化关联标签导航行为中主题漂移, 提高BibSonomy等Folksonomy网站知识服务表现。【方法】以BibSonomy网站真实数据为研究对象, 设计测试标签集筛选及语义距离测量算法, 借助有值图谱将最终结果可视化。【结果】测试标签集中存在近语义标签和远语义标签之分, 并且影响着关联标签导航行为中主题漂移程度。【结论】语义可视化能帮助用户直观地区分关联标签集的语义属性, 提高标签导航表现。

关键词: Folksonomy; 语义测度; 关联标签; 社会网络分析; 语义可视化
中图分类号:G250
Research on Semantic Distance Measurement and Visualization of Tags in Folksonomy
Huang Wei, Gao Junfeng, Li Rui, Zhou Shanshan
School of Management, Jilin University, Changchun 130022, China
Abstract

[Objective] The thesis explores the visualization and the measurement method of the tags semantic distance in folksonomy, and lays foundations for optimizing the navigation algorithm of related tags. [Context] The thesis weakens the “topic drift” in the navigation of related tags and improves the knowledge service performances in folksonomy websites such as BibSonomy by the visualization of the semantic distance. [Methods] The thesis designs an algorithm which helps choose the tested tags sets and measure the semantic distance, and visualizing the final results by a map with threshold value, based on the data in BibSonomy. [Results] There exist close semantic tags and distant semantic tags in test set, which affects the topic drift level in the behavior of the related tags navigation. [Conclusions] Semantic visualization method help users to distinguish semantic attributes between the related tags sets, and improve the navigation performances of the tags.

Keyword: Folksonomy; Semantic measurement; Related tags; Social network analysis; Semantic visualization
1 引 言

Folksonomy又被称为自由/大众分类法, 以用户自定义词语(Tag)标注资源, 其自底向上的知识组织机制鼓励普通用户参与到资源的标注与分类工作中, 是Web2.0环境下的典型技术特征之一。

近年来, 随着Folksonomy知识组织理论与实践的不断深化, 学术界有关Folksonomy的研究已经从早期的标签推荐、标签浮出、热门标签云导航逐步转向标签语义扩展、关联标签(Related Tag)辅助导航等问题。其中关联标签的使用不但丰富了网站资源的呈现维度, 而且通过测度共同标注同一资源标签对的频率能从语用紧密层面将用户、标签与资源有机聚合, 也因此备受基于Folksonomy组织资源的网站青睐。然而, 关联标签在解决Folksonomy资源导航中知识窄化问题的同时, 其本身平层型结构特征不可避免地导致标签扩展行为中主题漂移发生[ 1]

标签导航中主题漂移现象的出现主要由用户信息筛选过程中受短时记忆的限制所造成。基于关联标签的导航模式无法合理控制用户浏览目标短时记忆与Folksonomy组织结构的关系, 另外标签并无严密的树形等级结构, 因此不能保持用户标签浏览、查询线路和操作序列的一致性, 致使出现“迷航”情况。

笔者认为, 关联标签导航中的主题漂移是Folksonomy知识组织体系本身的一大特色, 合理的偏移能起到知识关联, 扩充用户检索思路的作用, 因此主题漂移作为一个问题而言, “堵”不如“疏”。本文将结合社会网络分析理论(Social Network Analysis)[ 2], 可视化分析标签主题漂移现象中隐含的语义语用层面特征, 进而为优化Folksonomy知识组织机制中基于关联标签的导航方法提供理论依据。

2 研究现状与相关工作

针对Folksonomy的知识导航体系研究热点首先聚焦于通过改进热门标签云图的平层型结构优化标签上浮算法, 从不同维度可视化呈现知识的层面。

香港学者Tsui等借助潜语义分析(LSA)获取标签概念之间的层级关系, 提出一种能将自底向上的松散标签结构自动转换为严密的自顶向下词表的算法以此来优化Folksonomy导航[ 3]。Laniado等借助WordNet提取标签的语义等级结构, 并且通过增加Folksonomy导航界面中存在的明晰语义层次关系最终形成标签本体, 达到帮助用户在del.icio.us标签网站中导航和找出相关资源的目的[ 4]

另外鉴于Folksonomy增设关联标签(Related Tag)辅助导航的现状, 学者对关联标签语义结构分析以及用户个性化检索的研究工作也陆续开展。滕广青等以BibSonomy网站的热门标签及其关联标签为研究对象, 利用形式概念分析方法构建标签概念格, 通过数据挖掘分析总结出关联数据的“语义关联词”和“语义下位词”结构特征是 Folksonomy 语义检索和层级导航基础的结论[ 5]。Schenkel等提出“文本背景合并(ContextMerge)”算法并以此支撑用户为中心的Folksonomy检索效度。该算法在执行过程中充分考虑了用户之间的关联关系, 并且采取两个维度的检索扩展: 用户关系强度扩展和标签间语义关联的扩展, 以此提高检索效率[ 6]

上述学者的成果丰富了Folksonomy知识导航的研究方法与思路, 通过总结前人研究经验了解到如何量化标签间存在的语义关系, 并以此为用户生成合乎其认知逻辑的可视化导航路径。考虑到Folksonomy中生成标签间语义关系的复杂特性, 本研究以社会网络分析为理论支撑, 量化关联标签间的语义距离, 通过有值图谱可视化浮出测试标签集的整体语义关系, 从泛在语义维度思考优化Folksonomy标签导航的途径。

3 Folksonomy标签语义测度与可视化呈现方法分析
3.1 Folksonomy中关联标签体系结构与主题漂移机理分析

笔者通过调研采用Folksonomy知识组织体系的大型网站, 发现标签检索途径主要包括以下两种: 基于标签云图的热门话题浏览式导航;基于字段的标签主题检索。

然而无论基于何种方式, 最终的检索任务在返回一系列已被检索标签标注过资源(文本、图片)的同时也生成一个与检索标签相关的标签集, 即关联标签。

一般而言, 关联标签的生成基于与检索标签的共同标注频次, 体现了标注行为中不同标签之间语义上的紧凑性、语用上的习惯性。关联标签与标签云相似, 点击任意一个标签都可直接获取被该标签附着的资源。另外, 沿着任一标签均可再次展开, 形成用户认知相关的导航路径, 如图1所示:

图1 Folksonomy的关联标签结构

然而用户采用关联标签不断扩充检索任务的同时却也受到“认知性迷航”的限制。某层关联标签层中出现的关联标签不再与检索标签领域相关, 而出于语用习惯上的接近又使得用户经常一起使用二者标注资源的情况时常发生。例如笔者在BibSonomy网站中输入检索标签“protege”, 其关联标签层中出现标签“tool”, 沿着路径“protege→tool”扩展导航, 发现其二层关联标签层中出现的标签基本与本体编辑软件Protégé或者本体领域技术无关, 即主题漂移。

如果说关联标签的体系结构造成用户导航过程中出现主题漂移问题是理有固然, 那么通过浮现标签语义距离的可视化路径导航亦势有必至。

3.2 基于语义关联的Folksonomy标签测试集生成

观察图1中检索标签的关联标签tag1、tag5, 发现二次关联标签层中出现了首次关联层中的标签tag2、tag1, 说明遴选的关联标签具备合乎标签之间内在逻辑关系的导航路径。为了筛选与检索主题相关的标签集, 以便按标签语义距离有效选择导航路径, 本文提出关联标签层级迭代算法。算法流程如图2中stage1所示。

图2 关联标签层级迭代算法与语义距离可视化流程

该算法的核心思想是将关联标签逐层提取, 分别评估。被评估标签t的关联标签集T(n+1)中具有至少x(控制阈值)个标签t(n+1)T(n-1), T(n-1)为标签t的上层关联标签集, 则认为该导航路径存在闭合回路, 即与检索标签主题相关, 加入语义测度标签集, 否则予以排除。首层标签集中tag直接与二层标签集进行关联性评估。算法核心部分如下:

Input: Retrieval tag t; x=3/*输入检索标签t, 控制阈值x=3 */
Output: Semantic distance test set of tags: Ts; /*输出语义距离测试集Ts*/
Begin
Step1. get the hierarchy of related tags;/*获取关联标签层次序数 */
Step2. get related tags set of hierarchy Tn, Tn={ ti,i=1,2,3…n};
	/*获取第n层关联标签集Tn */
Step3. foreach tagθ Tn, thendo
	get the next tag set T(n+1),
	where T(n+1) is the next hierarchy of tags related to tagθ;
	/*求取Tn中的任意标签tagθ的下层关联标签集 T(n+1) */
Step4. get the previous tag set T(n-1),
	where T(n-1)is the former hierarchy of tags related to tagθ;
	/*求取Tn中的任意标签tagθ的上层关联标签集T(n-1) */
Step5. if there at least three tagψ (tagψ Tn)=tagβ
(tagβ T(n-1)),
	/*集合T(n-1)中至少有三个标签出现在集合T(n-1)中*/
	then
	insert tagθ to the test set Ts, / *将标签tagθ插入测试集Ts */
	return to Step3;
	else break; /*标签集合Tn中没有符合要求的标签, 算法终止*/
	end
Step6. elseif foreach tagθ T1,
	get the next tag set T2,
	where T2 is the next hierarchy of tags related to tagθ;
	/*求取首层标签集中的任意标签tagθ的下层关联标签集 T2*/
Step7. if there at least three tagψ (tagψ T2)=tagβ (tagβ T1),
	/*集合T2中至少有三个标签出现在集合T1中 */
	then
	insert tagθ to the test set Ts,/ *将标签tagθ插入测试集Ts */
	return to Step3;
	else break; /*标签集合Tn中没有符合要求的标签, 算法终止*/
	end

关联标签层级迭代算法的介入, 使得待处理的标签主题满足一种“合理漂移”的状态, 使得语义距离测度工作有的放矢。

3.3 Folksonomy中标签语义距离测度

Folksonomy体系通常被定义为一个四元组F:=(U, T,R,Y), 即用户(User)、标签(Tag)、资源(Resource)以及三元关系Y U×T×R[ 7], 如图3所示。用户、资源、标签相互作用形成Folksonomy关联标签结构, 其中笔者在前文分析了用户语用层面标注行为对整个标签导航工作产生的影响, 鉴于本文的主要研究目标为探索标签间语义距离与导航优化, 因而在此只从资源角度分析标签的语义关联特征。

图3 Folksonomy知识体系三元组

不同的语境下标签所呈现的语义各不相同, 为避免研究中受标签一词多义、一义多词的影响, 在测度标签语义距离的工作中, 笔者将待测标签对代入实际语义背景开展计算。

通过层级迭代算法的引入, 笔者认为测试集中的标签之间存在紧凑性语义关系, 产生的导航路径符合用户感性认知发展规律, 因此标签载体中客观体现的标签共现特征能满足语义距离问题的求解需要。参照倒排文档频率的权重计算思想, 笔者设计了标签语义距离(Semantic Distance of Tags), 计算方法如下所示。

其中, d(tx,ty)表示从标签tx关联到标签ty的单向距离。Folksonomy关联标签体系中, “标签A是标签B的关联标签”的命题并不能推导出“标签B同时是标签A的关联标签”这样的结论。测量两个标签之间的单向语义距离并不能构建出对称标签矩阵, 因此需考虑标签的关联方向因素, 分别求出两个标签的互联语义距离, 取平均值。考虑到社会网络分析图谱中, 节点之间的关系紧密程度与其距离成反比的特性[ 2], Δ是一个常数, 对求得的标签语义距离作降维处理。

两标签的单向距离测算方法如下所示:

其中, fre(tx,ty)表示标签tx,ty的共现频率, Rty,Rtx分别表示标签ty被单独标注的资源次数, 以及标签tx,ty共同标注的次数。例如图3中的tag2→tag4的语义距离可表示为: fre(t2,t4)=1,Rtx=1,Rty=3, 则d(t2,t4)= ln2×ln1.33=0.96。

标签语义距离的测度结果为构建有值矩阵以及可视化有值图谱提供了基本元素。

4 可视化过程实证研究与讨论
4.1 标签语义距离可视化

笔者从标签网站BibSonomy中选取真实数据为实验对象, 展示标签语义可视化流程。以“ontology”为检索标签, 共得出首层关联标签20个, 如图4所示。出于对可视化图谱中数据容量因素的考虑, 本次实验只选取“ontology”的前两层关联标签为原始数据, 去重后共183个。

图4 BibSonomy真实数据集

调用迭代算法, 选择控制阈值X=6得出标签语义测试集(Tag Cloud), 如图5所示:

图5 标签语义测试集

测试标签与检索标签的语义松散耦合程度可通过控制阈值调整。经过规范化处理, 测试标签集的所有元素都附有明确的语义。由于语义相同的标签所标注资源频数存在显著差异性, 体现出不同的语义关系。因此本文并未将语义相同的标签(例如semantic-web与semweb)合并。

实验设置降维系数Δ=1, 调用标签语义距离公式“Semantic Distance of Tags()”对测试集中标签两两计算, 将最终结果导入一个20×20的有值矩阵, 如图6所示。

图6 标签语义矩阵(部分)

图6是社会网络分析软件UCINET[ 2]中自赋予的矩阵编辑环境, 矩阵中行与列元素相同, 行列交叉值即两标签的语义距离, 并与赋值成反比。例如标签“FOLKSONOMY”与标签“tagging”的语义距离约为4.65, 证明语义关联性较强。

研究过程中, 将矩阵中的标签作为“角色”, 用一条链接标签的加权线代表二者的语义关系。这样即构成标签语义距离的可视化网络, 通过软件UCINET[ 2]获得可视化图谱, 如图7所示。

图7 标签语义可视化网络图谱(circle:检索标签, triangle:近语义标签, square:远语义标签)

4.2 标签语义距离可视化对Folksonomy优化导航的影响

虽然在图谱中笔者分别从语义权重、形状、颜色、边的粗细等层面可视化标签语义距离, 但显然图7中用户从视觉角度直观辨识检索词汇的最近语义标签导航任务仍受图谱的信息承载量限制。为了便于直观呈现语义距离可视化对标签导航所产生的影响, 笔者抽取复杂网络中表示检索标签“ontology”与其他标签关系的“自我中心网络”进行讨论。

观察图8, 发现检索标签的领域术语构成其近语义标签组, 其中如rdf、owl等标签作为检索标签的语族术语只有伴随“ontology”出现才能符合语法习惯。领域内的术语标签与被检索的术语标签在语义进程演化中更倾向于连贯性、同一性, 因此沿着上述标签进行知识导航与问题求解符合领域知识突显的基本规律, 使得Folksonomy系统中知识的种子生根发芽。

图8 检索标签“ontology”的“自我中心网络”(circle:检索标签, triangle:近语义标签, square:远语义标签)

而software、book等常识性语词构成了检索标签的远语义标签组, 该类标签附着简单的语义信息但却蕴含着复杂的语用搭配习惯。由于上述词汇对语境的强依赖性, 导致对其检验、评价也变得十分复杂。因此由常识性语词为主体的远语义标签导航往往偏离领域知识主体, 最终出现“主题漂移”。

检索标签的近语义标签构成了Folksonomy知识导航的基础, 不断强化基于近语义标签的标签浏览路径选择能有效避免导航检索噪音, 标签语义可视化的最终目的是为了有效区分近语义标签集、远语义标签集, 确保在领域内的不同知识交互式扩散, 刺激认识主体(用户)间知识的平层共享、互惠、转移。考虑到标签语义图谱的复杂性, 用户从视觉上只能对标签语义距离初步区分, 基于精确语义距离的标签导航需按“最短距离, 最优路径”的原则调用排序算法实现。

5 结 语

本文借助复杂网络图谱等工具, 明晰了语义可视化与Folksonomy知识组织体系的融合机理, 在此基础上通过所发现的近语义、远语义标签特征探索标签导航的优化方法。事实表明, 以领域术语为主的近语义标签组具有更好的检索表现, 远语义标签组能起到问题补充的作用。可以肯定的是, 标签语义距离可视化方法在不远的将来必将对Folksonomy的知识发现研究产生积极影响。然而, 基于关联标签层级迭代算法的测试标签选择机制有待进一步完善, 基于精确语义距离的导航优化算法需要在下一步工作中进行设计, 在尊重用户标注偏好的基础上“用户- 标签- 资源”的多维度标签语义聚合机制也亟需建立, 基于领域本体的标签语义关联与导航等问题都将随着研究的不断深入而得到关注。

参考文献
[1] Li P, Wang B, Jin W, et al. User-Related Tag Expansion for Web Document Clustering [C]. In: Proceedings of the 33rd European Conference on Advances in Information Retrieval. 2011: 19-31. [本文引用:1]
[2] 斯坦利. 沃瑟曼, 凯瑟琳. 福特斯. 社会网络分析: 方法与应用[M]. 陈禹, 孙彩虹译. 北京: 中国人民大学出版社, 2011: 188-195.
(Wasserman S, Faust K. Social Network Analysis: Methods and Applications[M]. Translated byChen Yu , Sun Caihong . Beijing: China Renmin University Press Co. , LTD, 2011: 188-195. ) [本文引用:4]
[3] Tsui E, Wang W M, Cheung C F, et al. A Concept-relationship Acquisition and Inference Approach for Hierarchical Taxonomy Construction from Tags[J]. Information Processing & Management, 2010, 46(1): 44-57. [本文引用:1] [JCR: 0.488]
[4] Laniado D, Eynard D, Colombetti M. Using WordNet to Turn a Folksonomy into a Hierarchy of Concepts[C]. In: Proceedings of Semantic Web Application and Perspectives- 4th Italian Semantic Web Workshop. 2007: 192-201. [本文引用:1]
[5] 滕广青, 毕强, 高娅. 基于概念格的 Folksonomy 知识组织研究——关联标签的结构特征分析[J]. 现代图书情报技术, 2012(6): 22-28.
(Teng Guangqing, Bi Qiang, Gao Ya. A Study on Knowledge Organization of Folksonomy Based on Concept Lattice: Analysis on Structural Characteristics of Related Tags[J]. New Technology of Library and Information Service, 2012(6): 22-28. ) [本文引用:1] [CJCR: 1.073]
[6] Schenkel R, Crecelius T, Kacimi M, et al. Efficient Top-k Querying over Social Tagging Networks [C]. In: Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2008: 523-530. [本文引用:1]
[7] 张云中, 杨萌, 徐宝祥. 基于 FCA 的 Folksonomy 用户偏好挖掘研究[J]. 现代图书情报技术, 2011(6): 72-77.
(Zhang Yunzhong, Yang Meng, Xu Baoxiang. Research on FCA-based User Profile Mining for Folksonomy[J]. New [本文引用:1]
[8] Technology of Library Information Service, 2011(6): 72-77. ) [本文引用:1] [CJCR: 1.073]