中文微博用户标签的调查分析*——以新浪微博为例
黄红霞, 章成志
南京理工大学信息管理系 南京 210094
摘要

以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标签推荐服务提出改进建议。

关键词: 社会化标签; 微博用户标签; 语义标签; 标签推荐
中图分类号:G353.1
Investigation and Analysis of Chinese Microblog User Tags——Using Sina Weibo as Example
Huang Hongxia, Zhang Chengzhi
Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China
Abstract

Based on the microblog user tags and microblog content data from Sina Weibo, this paper analyses the features of user tags including user characteristics, the semantic relationship of the user tags, the degree of correlation between user tags and microblog content, and the distribution of emotion tags. On the results of investigation and analysis, the paper gives some advice for improvements of tag suggestion.

Keyword: Social tag; User tag of microblog; Semantic tags; Tag suggestion
1 引言

在微博服务中,微博用户通常根据其职业、兴趣爱好等因素定义一些关键词,这种类型的关键词通常被称为用户标签(User Tag)。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。目前微博仍处于快速发展阶段,影响力在不断扩大,因此如何更好地利用微博来进行信息推荐服务,具有一定的研究意义和应用价值。然而,目前关于微博用户标签的研究尚未引起关注,尚缺乏关于微博用户标签与微博内容关联程度、用户标签语义关系等方面的调查研究。

本文选择国内最具代表性的微博平台之一——新浪微博作为研究对象,对微博用户标签进行调研。本文采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内

容的关联度、情感标签等不同方面的统计分析,并针对标签推荐服务提出改进建议,从而为用户提供更好的好友与信息推荐服务。

2 相关研究工作概述

本节主要对标签语义关系、标签的情感分析等相关研究工作分别进行概述。

(1)标签语义关系研究

在社会化标签系统中,标签之间存在一定的隐性关系。挖掘标签之间的联系,有助于更好地理解标签的语义和用户行为。一般而言,共同标注某一资源的所有标签都互为共现标签,标签被用户使用标注同一资源的次数越多,其共现频率越高,相关度也就越高。标签的共现关系可以在一定程度上反映出标签之间的语义关系,如同义关系、层次关系等[ 1]

深入到标注过程中,Sinha认为标注是用户在头脑中产生各种可以描述某项资源的语义概念,并将这些语义概念转化为标签赋予该资源的一种分析过程[ 2, 3],Sen等[ 4]进一步发现个人意向、社群影响和标签推荐算法是影响用户标注过程的重要因素。

(2)标签的情感分析研究

用户用 Tag 标记自己感兴趣的东西更加贴近用户自身的理解和兴趣的表达方式。社会标签也包括很多主观情感的表达,如果将网络情绪分为“喜悦、愤怒、悲哀、恐惧、惊慌”等,则称为“情感分析”,合称为“情感倾向性分析”[ 5]。Parikh等[ 5]、Barbosa等[ 6]和Davidiv等[ 7]均使用机器学习方法训练针对微博的情感分类器。其中,Davidiv等[ 7]根据微博文本的特点,提出微博的情感符号,将微博文本分为多个情感类,而不仅是正向情感、负向情感和无情感。其中情感性标签在词性上一般为形容词,而与时间和任务相关的标签应选择名词或名词短语。

3 调研数据获取
3.1 调研流程概述

本文以新浪微博为例,进行微博用户标签的调研,主要步骤为数据获取、调研数据分析。其中数据获取包括采集微博用户的个人信息及微博内容数据。

调研数据分析主要包括用户信息的统计分析、标签的语义关系统计分析、用户标签和微博内容的关联度统计分析、情感标签的统计分析等方面。

3.2 调研数据获取

本文通过以下两种途径获取调研数据:

(1)从自然语言处理与信息检索共享平台下载NLPIR微博内容语料库,此微博内容语料库共有275 823条微博数据。本文从NLPIR微博内容语料库提取发布微博数大于100条的用户所对应的微博数据,共计125个用户。然后再对这些用户进行二次数据筛选处理,利用用户ID进入用户微博主页,查看用户标签,若该用户标签数小于4,则删除此用户。通过该方法,最终从NLPIR微博内容语料库获得59个用户数据,共计64 400条微博数据。

(2)在新浪微博网络平台上,手动抓取用户的微博数据。本文制定了一些标准来人工选取用户,如用户的影响力、活跃程度、兴趣爱好等。这些标准可以由用户的粉丝数、关注数、微博数和微博认证等活动信息间接体现。

通过上述两种途径共采集100个微博用户,共计68 650条微博信息。人均微博数约为686条。

3.3 实验数据准备

(1)用户标签的实验数据准备

获取100个微博用户,每个微博用户对应一个ID,利用ID进入微博主页,采集微博用户的标签。在此数据准备中,采集用户标签共825个,人均标签约8个。

(2)机器标签的实验数据准备

对每个微博用户发布的微博信息进行关键词提取。在微博信息的数据准备中,共有68 650条微博文本,对这些微博文本按照用户ID(UID)进行汇总,得到每个用户的微博集合,然后从中提取关键词。

本文利用机器学习的方法从微博集合中提取关键词,即采用TextRank算法[ 8],从博文中提取具有代表性的词语作为博文关键词。TextRank算法的基本原理为:将文本中的词语作为图上的点,根据词语之间的关系(如在给定窗口内共现)作为边,构造词语之间的关系图,以PageRank为基础进行迭代计算,得到每个词语的TextRank值,将得分排在前面的词语作为候选关键词,还可以依据候选关键词的相邻关系,得到复合关键词。本文利用开源工具FudanNLP来提取科学网博客的关键词。

为了提高实验结果的可信度,对每个用户提取三组不同数量的关键词,分别为10个、20个、30个,从而得到三组机器标签。

(3)情感标签的实验数据准备

为了进一步区分标签和了解用户标签与用户发布的微博内容的关联度,本文对用户标签及微博内容生成的机器标签分别进行情感标签的统计。其中情感标签的数据来源为《知网》情感分析用词词集,含正面情感词语、负面情感词语、正面评价词语、负面评价词语、主张词语和程度级别词语共9 313组中文词语。

通过人工剔除非情感标签的词汇,最终得到与情感标签匹配的用户标签数为182,与情感标签匹配的机器标签数为289。

3.4 调研数据格式说明

本文主要采集微博用户描述数据与微博内容数据。

(1)微博用户描述数据

微博用户描述信息主要包括唯一标识信息和基本描述信息。

唯一标识信息,即用户ID(UID),用户UID用于后台数据管理,在新浪微博中是一个随机生成的10位数字。微博昵称用于用户交流,可以是用户真实姓名,也可以是个性化的称呼。粉丝数、关注数、微博数、创建时间和微博认证是用户的活动信息,间接表现了用户的各种特征,如影响力、活跃程度、兴趣爱好、发言习惯等。

基本描述信息包括:用户地址、用户标签和性别等信息,显式地表现了用户的特征,其中用户标签和个人描述对用户特征的刻画最直接。用户标签是用户自定义描述自己职业、兴趣爱好等的关键词。微博用户可以自由选择词汇作为其用户标签。目前,在新浪微博平台上,每个微博账号最多可以添加10个标签。

(2)微博内容数据

微博内容数据从创作上讲,分为原创与非原创;从表现形式上讲,分为文字、图片、视频、音乐。微博信息的组织方式是嵌套式,方式比较复杂。与用户信息一样,微博信息也有唯一标识符,即微博ID。微博的内容限定为140字以内,内容简短。

4 调研数据分析
4.1 用户特征分析

本文对微博用户的用户信息进行统计,用户信息包括用户ID(UID)、关注数(friends_count)、粉丝数(followers_count)、微博数(statuses_count)。100个用户的关注数、粉丝数、微博数的统计结果如表1所示:

表1 微博用户特征分析

表1中可以看出,平均每个用户的关注数是537.73,而且关注数呈现正态分布,标准差为527.825,表明在这100个用户中绝大多数的用户关注数在537左右,已远远超过微博达人的申请标准,即关注数不低于100。这100个用户中,用户发布微博的平均值为4 799.90。

在100个用户中,平均粉丝数为867 949,粉丝数的分布情况如表2所示:

表2 微博用户粉丝数分布情况

表2可以看出,有75%的用户的粉丝数超过1 000名,有42%的用户粉丝数超过10万。

粉丝数、关注数和微博数是各大微博平台衡量一个用户影响力的核心指标,从关注数、粉丝数、微博数的统计结果可以看出,本实验的100个用户的在微博的活跃度高、影响力大。

4.2 用户标签的语义关系分析

在社会化标签系统中,标签之间存在一定的隐性关系。挖掘标签之间的联系,有助于更好地理解标签的语义和用户行为。在本次用户标签的语义关系统计的实验中,对每个用户的用户标签从标签的同义关系、标签的上下文关系、标签的相关关系三个方面进行语义关系统计研究。

生成每个用户的用户标签矩阵,然后对用户标签之间的语义关系进行人工标记,具体标记规则如下:

(1)若标签之间存在同义关系则标记为1;

(2)若标签之间存在上下文关系则标记为2;

(3)若标签之间存在相关关系则标记为3;

(4)若标签之间没有存在以上三种关系则标记为0。

某一用户(用户ID: 1282005885)标签的语义关系标记样例如表3所示:

表3 用户标签的语义关系标记(用户ID: 1282005885)

表3可以看出,标记总数为36次,其中标记“1”总数为0次,标记“2”总数为5次,标记“3”总数为14,标记“0”总数为17。表明该用户的标签之间不存在同义标签,存在5对上下文标签,14对相关标签。

依照上述方法,对每个用户的标签集进行语义关系标记。对用户标签的语义关系的描述统计如表4所示:

表4 语义关系的描述统计

表4中进行语义关系比较的共计3 183对,其中具有同义关系的共有47对,上下文关系的共有317对,相关关系的共有734对,没有关系的共有2 085对。

表4表明,在每个用户添加的标签中,有34%的标签存在语义关系。其中1%的标签存在同义关系,10%的标签存在上下文关系,23%的标签存在相关关系。可以看到在标签的语义关系中,标签的相关关系占有较大比重,标签的同义关系占有最小比重。同时表明,在新浪微博平台上,一个微博用户设置10个用户标签,那么在这10个标签中平均有3.4个标签之间存在着同义关系、上下文关系或相关关系。

4.3 内容的关联度分析

用户标签与微博内容的关联度是指用户标签与微博内容相关的程度,本文利用用户标签与机器标签的相关度比较结果来考察用户标签与微博内容的关联度。为了提高实验结果的可信度,提取每个用户对应的三组不同数量的机器标签,分别为10个、20个、30个。

依据以下打分规则,来判断用户标签与机器标签的关联程度:

(1)用户标签与机器标签完全不相关。

(2)用户标签与机器标签基本不相关,只包含少许相关内容。

(3)用户标签与机器标签可能相关也可能不相关。

(4)用户标签与机器标签基本相关,包含少许不相关内容。

(5)用户标签与机器标签完全相关。

在给用户标签与机器标签的关联程度打分时,首先在机器标签中找出一个与用户标签最相关的标签,然后对其关联程度进行打分。打分过程中,两名评估员对同一组的结果进行独立判断打分,然后取平均值作为最后的分值。由于分别提取了10个、20个、30个共三组机器标签,因此本次实验共有三组用户标签与机器标签相关性比较数据。

内容关联度分析包括:

(1)个体对比分析

在进行用户个体对比分析之前,首先对三组用户标签与机器标签的打分数据进行汇总得到平均值,然后对每个用户的每组打分数据再次求平均值,再对全部标签的关联度平均值求出总平均值,最后得到三组数据100个用户的平均数据,如表5所示:

表5 用户个体对比分析(用户ID: 1282005885)

为了从微观方面比较用户标签与微博内容的关联度性,选择机器标签个数为10的这组数据进行比较。对100个用户的总的平均值的分组统计结果如表6所示:

表6 用户个体分析样例(用户ID:1282005885)

表6“相关度区间”表示的是用户标签与机器标签的相关性打分值,共分为5组。1表示用户标签与机器标签完全不相关,5表示用户标签与机器标签完全相关。“数量”表示的是100个用户的总平均值的统计数。

结果显示,在100个用户中, 有99个用户的总平均值大于2,表明几乎所有用户的用户标签与其微博内容存在一定关联。有79名用户的总平均值大于3,表明这些用户发布的微博有一半以上的内容与其用户标签相关。有约2/5的用户的总平均值大于4,这些用户的微博内容与其用户标签比较相关。以某一用户(ID为1148961715)为例,对微博内容进行关键词提取,频率较高的词语有:“不错”、“好吃”、“味道”、“睡觉”等,而其用户标签为“求掉肉”、“吃货”等,可以看出,看似凌乱的微博在经过关键词提取后,可以与其用户标签相互映射。因此,在为用户推荐标签时,可适时参照用户的微博内容。

(2)用户总体对比分析

当机器标签数为10、20、30,相关度均值分别为3.54、3.62、3.75,表明当机器标签的数目增加时,用户标签与机器标签的相关程度是总体上升的。

4.4 情感标签的统计分析

在情感标签的数据准备中,最终得到与情感标签匹配的用户标签的个数为182,与情感标签匹配的机器标签的个数为289,用户标签与机器标签中情感标签的所占比率分别为:22.1%、28.9%,这表明不管是在用户标签,还是依据用户微博内容提取的机器标签,其中情感标签均占有较大比率,机器标签中情感标签的比重较大。

此外,本文对用户标签和机器标签中包含的情感标签分别进行统计,得到高频的情感标签。用户标签和机器标签中前20个使用频率最高的情感标签分别如表7表8所示:

表7 用户标签中高频词

表7表8可以看出,由于用户习惯、爱好等存在差异,用户定义其用户标签时,体现出表达方式上的差别,如中英文缩写与全称、网络词与非网络词的区别。在这一定程度上说明,用户标签与机器标签中的情感标签可以起到互补作用。

表8 机器标签中高频词
5 结语

本文以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在此调研基础上,针对标签推荐服务与舆情监测提出如下改进建议:

(1)用户的微博内容与其用户标签有一定的关联。标签推荐服务可以从用户微博内容中抽取关键词作为标签推荐的数据来源之一。

(2)用户标签之间具有一定的语义关联,可以对标签进行聚类处理,发现微博用户的主要兴趣或兴趣偏好,以此为基础提高信息推荐的质量。

(3)利用微博进行情感倾向性分析或舆情监测时,可以综合考虑用户标签与微博内容中的情感词汇,提高情感倾向性分析或舆情监测的质量。

本文主要不足之处为:调研数据有待进一步扩大,本次调研选择100个新浪微博用户进行研究,具有一定的局限性,分析的深度还有待提高,研究结果的普遍性也有待在实践中进一步验证。在以后的工作中,笔者拟采集更多的微博用户进行研究,同时也可以对国内多个微博平台如新浪微博、腾讯微博、网易微博等进行比较。

参考文献
[1] 刘向红, 宋文, 姚朋. 基于标签的Folksonomy机制研究——以CiteULike为例[J]. 图书馆理论与实践, 2010 (5): 29-33.
(Liu Xianghong, Song Wen, Yao Peng. Study of Folksonomy Mechanism Based on Tags——An Example of CiteUlike[J]. Library Theory and Practice, 2010(5): 29-33. ) [本文引用:1] [CJCR: 1.045]
[2] Sinha R. A Cognitive Analysis of Tagging[EB/OL]. [2011-08-27]. http://rashmisinha.com/2005/09/27/a-cognitive-analysis-of-tagging/. [本文引用:1]
[3] 窦玉萌, 赵丹群. 协作标注系统研究综述[J]. 现代图书情报技术, 2009(2): 9-17.
(Dou Yumeng, Zhao Danqun. An Overview of Research on Collaborative Tagging System[J]. New Technology of Library and Information Service, 2009(2): 9-17. ) [本文引用:1] [CJCR: 1.073]
[4] Sen S, Lam S K, Rashid A M, et a1. Tagging Communities, Vocabulary, Evolution[C]. In: Proceedings of the Conference on Computer Supported Cooperative Work. USA: ACM Press, 2006: 181-190. [本文引用:1]
[5] Parikh R, Movassate M. Sentiment Analysis of User-Generated Twitter Updates Using Various Classification Techniques[R]. Stanford University, 2009. [本文引用:2]
[6] Barbosa L, Feng J. Robust Sentiment Detection on Twitter from Biased and Noisy Data [C]. In: Proceedings of the 23rd International Conference on Computational Linguistics (COLING2010), Beijing, China. 2010: 36-44. [本文引用:1]
[7] Davidiv D, Tsur O, Rappoport A. Enhanced Sentiment Learning Using Twitter Hash-tags and Smileys[C]. In: Proceedings of the 23rd International Conference on Computational Linguistics (COLING2010), Beijing, China. 2010: 241-249. [本文引用:2]
[8] Mihalcea R, Tarau P. TextRank: Bringing Order into Texts [C]. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), Barcelona, Spain. 2004: 404-411.
(作者E-mail: huanghongxia123@gmail. com) [本文引用:1]