多语言高质量社会化标签生成与聚类
章成志
南京理工大学经济管理学院 南京 210094;江苏省数据工程与知识服务重点实验室(南京大学) 南京 210093

随着Web 2.0网站的不断兴起, 不同语种的社会化标签日益增多。社会化标签是互联网用户对网络上的Web资源进行协同标注的结果, 是广大用户从自身角度对文本信息内容的揭示, 融入了互联网用户的集体智慧。同时, 不同语种用户对Web资源进行标注, 促使互联网上的多语言社会化标签资源不断丰富。然而, 社会化标签质量参差不齐, 存在标签噪声问题, 对标签的挖掘与应用产生干扰。另外, 不同语言类别的社会化标签广泛存在于一些主流的Web2.0网站中, 使得同一资源存在不同语种的社会化标签。多语言标签本身是一种很具价值的多语言资源, 在多语言文本挖掘、跨语言信息检索等多语言信息资源的处理及服务领域均具有重要用途。对多语言标签进行聚类, 可以进行跨语言的社区发现、社会舆情监测等应用研究。然而, 多语言标签资源目前尚未被有效挖掘和利用, 缺乏对多语言社会化标签的自动聚类研究与实践。

针对以上问题, 笔者在对社会化标签进行质量评估的基础上, 进行多语言社会化标签的自动聚类研究。建立社会化标签的质量评估框架体系与评估模型; 在考虑语义的基础上, 融合标注资源的内容特征与社会化特征, 进行高质量社会化标签的生成; 对高质量的多语言社会化标签进行自动聚类, 并对聚类结果进行评估。笔者按照以上研究思路开展本专题的研究, 共5篇文章, 分别涉及社会化标签质量评估、关键词标注行为、标签聚类以及Hashtag综述。

(1) 社会化标签质量评估方面, 《社会化标签质量自动评估研究》一文针对现有标签质量评估研究割裂标签的内容属性与社会化属性这一问题, 以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。结果显示结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。

(2) 关键词标注行为方面, 《科研用户博文关键词标注行为差异研究— — 以科学网博客为例》一文从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。结果发现不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。

(3) 标签聚类方面有两篇论文。《区分标签质量的机器生成标签聚类研究》一文针对常规标签或词语聚类没有考虑聚类对象的质量差异对聚类效果影响这一问题, 分析不同质量的机器生成标签的聚类效果差异, 研究结果表明高质量的机器生成标签聚类结果比低质量的标签聚类结果更好。《标注内容与用户属性结合的标签聚类研究》一文分析标签聚类中标注内容、用户属性及其二者结合对聚类效果的影响, 结果表明在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升。

(4) 《Hashtag研究综述》一文对Hashtag的功能与特性、推荐Hashtag的方法、Hashtag的分类与聚类、Hashtag的应用等研究进行归纳和总结, 分析当前Hashtag研究的热点, 并对未来研究与应用提出展望。

在当前的大数据与社会媒体快速发展的背景下, 针对多语言高质量社会化标签的挖掘研究, 不但具有重要的理论与应用价值, 并且具有一定的挑战性。本专题旨在抛砖引玉, 敬请相关领域同行批评指正。

参考文献