利用微博数据的产品评价方法研究<sup>*</sup>—

引用本文

李兵, 徐玮佳, 张婧璇. 利用微博数据的产品评价方法研究^*——以“安卓系统”评价为例 . 现代图书情报技术, 2014, 30(4): 92-99
Li Bing, Xu Weijia, Zhang Jingxuan. The Research of Products Evaluation Using Microblogging Data with “Android System” Evaluation as an Example. New technology of library and information service, 2014, 30(4): 92-99 复制到剪切板

Permissions

《现代图书情报技术》编辑部

利用微博数据的产品评价方法研究^*——以“安卓系统”评价为例

李兵, 徐玮佳, 张婧璇

对外经济贸易大学信息学院北京 100029

修回日期:2014-02-05

摘要

【目的】分析电子商务中现有产品评价模式的不足, 提出一种改进不足的产品评价新模式。【方法】在国内最大的微博平台上, 针对某一产品主题抽取1 687条微博数据, 并采用文本情感分类技术, 对该样本数据集进行建模和分析。【结果】分析面向产品主题的微博数据, 对其蕴含的语义信息进行归纳总结, 发现其同样具有产品整体评价功能。并由于微博数据生成的自发性, 其分析结果更具有客观性。【局限】更大规模样本数据的分析没有全面涉及, 基于微博的动态产品评价研究没有涉及。【结论】该模式可以在一定程度上克服原有互联网产品评价模式的弱点, 从而吸引更多企业关注微博产品评价信息。

关键词: 微博; 情感分析; 众包; 产品评价

中图分类号:TP391 文章编号:2014-4-92-99

The Research of Products Evaluation Using Microblogging Data with “Android System” Evaluation as an Example

Li Bing, Xu Weijia, Zhang Jingxuan

School of Information Technology & Management, University of International Business and Economics, Beijing 100029, China

Abstract

[Objective] Analyze the existing product evaluation models of electronic commerce, find their shortages, and propose a new model to improve these shortages.[Methods] Collect 1 687 microblogging data on a product from the largest microblogging platform in China. Analyze and build modeling on the sample data sets by text sentimental classification.[Results] Analyzing the microblogging data on a product and summarizing their inherent semantic information. The research find that they can be used to evaluate product characterisics. And these data is generated with spontaneous, so the results of the analysis are more objective.[Limitations] Analysis of a larger sample of data is not fully involved, also the evaluation of products based on dynamic microblogging data is not involved.[Conclusions] The analysis in the paper indicates that this model overcomes the weakness of original ones to a certain extent; accordingly, it attracts more companies’ attention on microblogging product evaluation information.

Keyword: Microblogging; Sentiment analysis; Crowdsourcing; Product evaluation

Show Figures

1 引言

电子商务的飞速发展使得商业组织在商业模式上有了更多选择, 同时随着互联网的不断成熟, 也使消费者的生活方式产生了巨大的改变。而消费者在购买某种商品前, 最为关注的因素之一就是其他消费者对该商品的评价信息。

产品评价信息一方面能让企业了解其产品及其性能在消费者心中的地位和受欢迎程度, 给企业的产品研发部门提供重要的产品改进信息, 帮助企业保持处于优势地位的产品特性, 改进不足的产品特性, 从而提高产品的市场竞争力。同时企业还可以通过产品评价来挖掘竞争对手的产品评价信息, 为企业制定有效的市场战略决策提供重要的情报参考。另一方面, 潜在的消费者通常会参考其他顾客发表的产品评价信息来分析其想购买的产品的性能, 产品评论信息能有效影响潜在消费者的购买决定。

鉴于此, 本文提出一种基于微博这一互联网新媒体的产品评价模式, 利用微博所特有的广泛性、实时性、群体智慧和情感词丰富等特征^{[ 1]}, 设计出一种更加客观和真实的产品评价模式, 以便进一步促进微博用途的商业研究和开发, 更有效地实现其商业价值最大化。

2 互联网现有产品评价模式概述

随着B2C商务模式的日趋发展和网络购物的流行, 互联网上存在着多种产品评价模式, 归纳如下:

2.1 B2C和C2C网站的产品评价模式

(1) B2C产品评价模式: 以京东商城为例^{[ 2]}, 购买过某种产品的用户在交易成功后可对其所购买的产品进行评价, 包括打分(1-5分, 满分为5分)、评价优点、评价不足、使用心得等。京东商城对所有分数进行汇总, 并分类统计出好、中、差评及其各自所占的比例, 最终给出总体好评度和相关评价结论。

(2) C2C产品评价模式: 以淘宝网为例^{[ 3, 4]}, 其产品评价模式与B2C大体相似, 除了可以给产品打分和发表评论外, 用户还可以对卖家的服务态度、发货速度和物流速度进行打分评价。国外的亚马逊和eBay等主流的电子商务网站也是这种产品评价模式^{[ 5]}。这种B2C或C2C网站的产品评价模式是互联网上最普遍的一种产品评价方法。

2.2 独立第三方评价网站的产品评价模式

以大众点评网和闺蜜网为例, 大众点评网主要是针对商户进行评价^{[ 6]}, 以美食商户为例, 用户可以对餐厅总体进行打分(1-5分, 满分为5分), 另外还包括一些其他方面的补充评价, 如口味、环境、服务、人均、时段、餐厅氛围、餐厅特色、等位时间、停车信息等。最终所有用户的评价形成对该餐厅的总体评价。

闺蜜网则是针对美容护肤品的第三方评价网站, 其主要目标用户群为女性, 模式类似于大众点评网, 独特之处在于用户可以添加自身信息, 如年龄、发质、肤质、年消费额等, 其他用户在浏览评价内容时可以依据这些条件进行更加细致的筛选。

综上所述, 上述几类产品评价模式, 作为互联网上的产品推荐系统应用, 得到了使用者和商家的普遍认可。但这些模式也存在一些共性的问题, 如网购评价或第三方评价过程中, 容易受到一些不确定因素(如他人的评价信息等)的干扰; 又比如很多商家采用不正当竞争手段来获得好评, 或者消费者恶意差评等不正当的行为等。而微博作为一种自媒体, 由于其用户群体对某类事物评价的自发性, 可以在一定程度上减少这种人为的产品评价干扰。

鉴于此, 本文提出了一种基于微博这种社会新媒体的产品评价模式, 把微博发贴内容的情感分析作为产品评判的依据。具体的评价方法是: 按照某一产品主题, 筛选出公众微博中针对这一主题的评论性微博, 并根据发表这些微博的用户群体中无意识的众包^{[ 7, 8]}行为所反映的情感倾向来进行该产品主题的评价。该方法与当前互联网上存在的其他方法最大的不同之处在于, 微博内容是人们日常生活的主观感受, 是人们表达情感、抒发情绪的一种方式, 其中蕴含的对某种产品的评价倾向并不是刻意而为之, 这种分析潜在语义而得出的产品评价结论, 能够更真实地反映出公众对产品的意见、态度和立场, 并且避免了在网购评价或第三方评价中受到其他因素的干扰, 从而更加真实准确; 另一方面, 这种评价方法减少了商家不正当的获得好评、消费者的恶意差评等^{[ 9, 10]}不公平的行为, 也确保了评价的真实性。另外, 由于微博文本较短(140字以内), 非常便于进行文本处理和情感分析, 这是和传统互联网网页情感分析^{[ 11, 12]}有较大差别的地方。

3 面向主题的数据获取

基于上述研究目标, 笔者首先提出一种微博产品评价数据的获取方法。通过该方法获取的数据, 作为本文进行产品评价研究的基础数据。整个数据获取过程分为面向产品主题的关键词提取以及基于关键词的数据抓取两个步骤。

3.1 面向产品主题的关键词提取

作为利用微博数据进行产品评价的前提条件, 需要找到面向特定产品主题的关键词。如果关键词选取不好, 既会影响抓取到的微博信息数量(漏掉很多包含相关信息的微博), 又可能影响抓取到的微博信息质量(有很多不相关的噪声微博数据)。因此, 需要找到较为有效的关键词获取方法。基于以上考虑, 采用新浪微博关键词搜索服务+百度指数+Google主题词趋势分析服务(一个最大的中文微博的搜索服务, 加上两个最大的中文搜索引擎关键词趋势分析服务)搜索、用户问卷调查, 并和基于中文社会网络系统(如人人网、新浪微博和腾讯微博)投票相结合的方法, 构建面向产品主题的关键词集合。该方法的主要设想是: 既利用社会网络中用户的众包行为, 又兼顾主流中文搜索引擎中相关服务的客观性。方法的具体形式化描述如下:

C: 用户问卷调查所得的面向产品主题的高频关键词集合;

R: 各类搜索服务提供的面向产品主题的高频关键词集合;

Ω: 面向产品主题的关键词集合。

其中, Ω=C∩R。

本文以目前比较热点的手机操作系统“安卓”为例, 描述提取和扩展关键词的过程。选择“安卓”的主要原因是它是一个开源操作系统, 有大量厂商在使用。因此, 在研究中并没有对该产品的某些特征存在主观偏好的可能性, 保证了研究的客观性。

(1) 搜索引擎提供的相关关键词

在研究过程中, 笔者选择Google、百度两个搜索引擎以及新浪微博自带的搜索功能, 分别输入“安卓”和“Android”, 得到搜索引擎的关键词推荐和相关搜索, 如图1所示:

	Figure Option View Download New Window
	图1 新浪微博搜索功能和Google搜索引擎的关键词推荐示例

针对关键词搜索结果, 经过统计筛选后关于安卓系统主题选取的关键词如下:

表0 针对关键词搜索结果, 经过统计筛选后关于安卓系统主题选取的关键词

但是, 由于搜索引擎的关键词是根据用户的搜索热度来进行排名, 用户在进行搜索时都出于一定的目的。而微博的个人用户在发布微博时更多是要说明一件事, 表达一种情绪等。因此, 这也就有可能导致搜索引擎的关键词与微博中的关键词不一定完全吻合。需要进一步采用问卷和访谈来获得遗漏的有效主题词。

(2) 问卷和访谈收集的关键词

以调查问卷和访谈形式收集关键词, 要求每个被访问者给出他(她)认为在微博中最有可能出现的3至5个与“安卓”主题相关的关键词。考虑到青年学生是安卓系统的主要用户群, 因此选择4所在京高校, 面向在校大学生共发放问卷150份, 共收回102份有效调查问卷, 回收率为68%。同时, 针对某在京高校随机选取30名同学, 进行面对面的访谈。最后将两部分数据进行汇总, 经统计后部分结果如表1所示(词频≥5):

表1 问卷和访谈收集的部分关键词

在上述工作的基础上, 从问卷收集的关键词中, 剔除词频低于2以及相关程度相对不高的词, 余下的词再加上搜索引擎推荐的关键词, 通过在社会网络上投票的方式进一步筛选。其中, 投票过程使用“人人网+新浪微博”的“投票”应用进行, 累计有200多位参与者进行了投票。经整理得出得票数最高的10组词, 如图2所示。笔者把这10组词作为下一步数据获取的主要关键词集合, 又补充了排名次之的10组词作为数据获取的补充关键词。

	Figure Option View Download New Window
	图2 投票得票数最高的10组关键词

3.2 基于关键词集合的数据获取

笔者将与安卓系统相关的投票排名前20的关键词构成关键词集合, 利用新浪微博提供的API, 开发了数据抓取工具实现数据获取。为了避免微博API调用次数的限制, 在开发的数据抓取工具中, 采用MapReduce机制, 用多台计算机对数据进行并行抓取和去重, 提高抓取效率。通过一周的数据采集, 共收集“安卓”主题的微博1 687条, 去除无效内容和与主题不相关的内容后, 共有1 590条。

4 微博情感分类

仍以安卓系统产品评价为例: 采用人工判断的方式, 从1 590条微博中抽取200条进行抽样分析, 确定这些样本内容的大致类别; 对这1 590条微博采用中国科学院计算技术研究所的ICTCLAS分词软件进行分词处理, 提取每条微博的类别词作为代表该微博的特征项, 并利用人工判断, 提取高频类别词构建类别词典d_j; 采用向量空间模型对1590条微博进行映射, 微博 d_i形式化为n维空间的一个向量d_i=(w_i1,w_i2,...,w_ik,...,w_in) , w_ik代表d_i中第k个特征项的得分; 计算微博d_i和d_j间的相似度, 并根据相似度计算结果进行归类。如公式(1)所示:

(1)

采用上述方法, 对1 590条微博按照主题词和内容进行分类(对分类结果进行三次人工抽样判断, 最低准确率为82%), 并对分类比较模糊的微博进行了人工判断, 微博类型如表2所示:

表2 4种类型的微博

4种类型的微博示例如表3所示, 作为产品评价研究, 本文主要侧重于评价型微博的分析解读。

表3 4种类型的微博示例

表4 三种情感类别的评价型微博内容

本文采用基于情感词词典的情感分析方法, 具体的情感分析步骤如下:

(1) 利用HowNet的情感词典构建初始情感词语料库 , 利用HowNet的否定词词典构建初始否定词和转折词语料库N;

(2) 将微博常用的并且未包含在HowNet情感词典中的新词和表情符号添加到情感词语料库中;

(3) 对已经分词完毕的675条产品评价型微博进行特征提取, 主要通过每条微博的特征项来代替这条微博。为了降低情感分析的难度, 在保留所有否定词和表情符号的基础上, 只针对主题词和情感词进行特征提取, 其他词提前过滤掉。在特征提取过程中, 选择最基本的词频统计作为特征项的权重, 当某个词的词频超过规定的阈值, 就将其设为特征项。之所以在特征选择时不采用经典的TF-IDF加权方法, 是因为微博是短文本, 无法像一般网页那样统计某个特征项在某一网页中出现的次数(因为一个特征项往往只在一条微博中出现一次), 故而无法计算有效的TF值。

(4) 把每条微博的非主题词特征项分别在情感词语料库D和否定词和转折词语料库N中进行扫描。如果某微博的特征项没有在D中匹配到相关词和符号, 则定义该微博为中性情感, 记为2; 如果某微博的情感词特征项在D内得到正向情感词或表情符号匹配, 则该特征项为正面情感, 记为1; 反之则为负面情感, 记为0。考虑到微博特征项的情感倾向具有上下文相关性, 如果特征项前面不包含否定和转折词, 则其情感倾向不变; 反之, 则情感倾向相反。

(5) 采用朴素贝叶斯分类器进行微博情感分类, 假定微博特征项在判别微博情感倾向时相互独立(该假定与实际情况基本相符), 通过计算待分类微博属于各个情感类别的概率, 然后取最大概率的那个情感类别作为待分类微博所属类别。计算公式为:

(2)

其中, c_i(i=0,1,2)代表不同的情感类别, P(c_i|m)表示微博m属于情感类别c_i的条件概率。由前面假定, 各个特征项之间相互独立, 故:

其中, w_j为微博m的第j个特征项。将公式(3)代入公式(2), 即可计算情感类别的概率。

采用上述方法, 先从675条产品评论型微博中抽出200条作为训练集, 计算相应的特征项概率值, 然后将这些计算结果用于剩下的475条微博, 进行情感分类。分类结束后, 对分类结果进行了5次抽样验证(每次抽样的样本数都是50条), 分类准确率均大于85%, 证明该方法具有一定的实用价值。微博分类结果的截图(Excel表格形式)如图3所示。

5 基于情感分类结果的产品评价

将经过上述情感分类的所有评价型微博, 按“安卓”主题的不同主题词(不同侧面)大致分为8类, 最终统计结果如表5所示:

	Figure Option View Download New Window
	图3 微博情感分类结果示例

表5 微博内容的分类统计结果

进一步对各个主题的情感分类情况进行统计分析, 结果如图4所示:

	Figure Option View Download New Window
	图4 面向主题的微博情感分类统计

从统计结果中可知: 从细分类别来看, 获得支持或赞赏(正面态度的微博)最多的是“应用”方面(45.4%), 而遭到反对或批评(负面态度的微博)最多的是“安全”方面(58.1%)。因为“应用”方面包括游戏和软件, 由于安卓的开放机制提供了用于同步、蓝牙和其他新应用程序的编程接口, 使得许多开发者可以参与到Android平台的开发过程中, 应用的种类和数量迅速增长, 得到了大多数消费者的喜爱和青睐。而在“安全”方面, 由于Android系统在高速发展的同时确实存在漏洞, 这点也是大多数消费者担心的一点。另外, 在笔者提取微博数据的前一天恰好有消息称“Android系统漏洞会导致黑客控制设备”, 此类消息在微博上迅速传开, 这也是导致在“安全”方面安卓获得的评价较低的原因之一。在后续的研究中可对不同时期的微博数据进行抓取, 从而对比产品评价对时间和突发事件的反应, 并可在一定程度上消除突发事件对产品评价的剧烈波动。

消费者最容易产生情绪的三个方面分别是“安全”、 “刷机”和“系统”, 正负面态度的微博总和比例分别为93.6%, 78.5%和76.2%。从这三个方面的标签来看, 消费者在这三方面最容易产生情绪, 也最容易因此影响其对整个安卓产品的评价。因此, 安卓手机生产商及其他相关的企业可以考虑着重改善这三方面的客户体验, 从而提高安卓产品的整体评价。

6 结语

总体而言, 基于微博这种新兴媒体的商业应用研究是一个方兴未艾的研究领域, 也是电子商务领域应用创新方面的一个非常重要的环节。本文对基于微博情感分析的产品评价模式进行了深入分析, 在此基础上, 针对某一特定产品进行了实证研究, 并对研究结果进行了分析和论证, 目的是为电子商务产品评价研究提供一种新的研究思路。未来的研究方向包括基于大数据的微博产品评价研究以及微博动态产品评价情感分析研究等。

参考文献

View Option

[1]	平亮, 宗利永. 基于社会网络中心性分析的微博信息传播研究——以Sina 微博为例[J]. 图书情报知识, 2010(6): 92-97. (Ping Liang, Zong Liyong. Research on Microblog Information Dissemination Based on SNA Centrality Analysis —— A Case Study with Sina Microblog[J]. Document, Information & Knowledge, 2010(6) : 92-97. ) [本文引用:1] [CJCR: 1.169]
[2]	杨璟. 京东商城: 自主经营式B2C的“领头狼”[J]. 创新时代, 2011(8): 40-42. (Yang Jing. Jingdong Mall: The Alpha of Independent Type[J]. Innovation Time, 2011(8): 40-42. ) [本文引用:1]
[3]	王静一. 从淘宝网的竞争策略看C2C市场发展[J]. 商业时代, 2006(14): 70, 78. (Wang Jingyi. The Analysis of C2C Market Future Development Based on the Competitive Strategy of Taobao[J]. Commercial Times, 2006(14): 70, 78. ) [本文引用:1]
[4]	李维安, 吴德胜, 徐皓. 网上交易中的声誉机制——来自淘宝网的证据[J]. 南开管理评论, 2007, 10(5): 36-46. (Li Weian, Wu Desheng, Xu Hao. Reputation in China’s Online Auction Market: Evidence from the Taobao Website[J]. Nankai Business Review, 2007, 10(5): 36-46. ) [本文引用:1] [CJCR: 1.659]
[5]	Kotha S, Basu S. Amazon and eBay: Online Retailers as Market Makers[A]. // The Market Makers: How Retailers are Reshaping the Global Economy[M]. Oxford University Press, 2011: 155-177. [本文引用:1]
[6]	吕秀莹. 浅析Web2. 0环境下我国第三方点评网站的发展现状——以大众点评网和豆瓣网为例[J]. 东南大学学报: 哲学社会科学版, 2011, 13(S1): 87-92. (Lv Xiuying. A Basic Analysis of Development of Domestic Third Party Review Site in the Web 2. 0——Based on Dianping and Douban Website[J]. Journal of Southwest University: Philosophy and Social Science, 2011, 13(S1): 87-92. ) [本文引用:1]
[7]	谭婷婷, 蔡淑琴, 胡慕海. 众包国外研究现状[J]. 武汉理工大学学报: 信息与管理工程版, 2011, 33(2): 263-266. (Tan Tingting, Cai Shuqin, Hu Muhai. Foreign Research Status of Crowdsourcing[J]. Journal of Wuhan University of Technology: Information & Management Engineering, 2011, 33(2): 263-266. ) [本文引用:1] [CJCR: 0.4389]
[8]	张利斌, 钟复平, 涂慧. 众包问题研究综述[J]. 科技进步与对策, 2012, 29(6): 154-160. (Zhang Libin, Zhong Fuping, Tu Hui. A Research Review on Crowdsourcing[J]. Science and Technology Progress and Policy, 2012, 29(6): 154-160. ) [本文引用:1] [CJCR: 0.461]
[9]	Pfeffer J, Zorbach T, Carley K M. Understand ing Online Firestorms: Negative Word-of-Mouth Dynamics in Social Media Networks[J]. Journal of Marketing Communications, 2014, 20(1-2): 117-128. [本文引用:1]
[10]	Blazevic V, Hammedi W, Garnefeld I, et al. Beyond Traditional Word-of-Mouth: An Expand ed Model of Customer-driven Influence[J]. Journal of Service Management, 2013, 24(3): 294-313. [本文引用:1]
[11]	Meuter M L, McCabe D B, Curran J M. Electronic Word-of-Mouth Versus Interpersonal Word-of-Mouth: Are All Forms of Word-of-Mouth Equally Influential?[J]. Services Marketing Quarterly, 2013, 34(3): 240-256. [本文引用:1]
[12]	Alexand rov A, Lilly B, Babakus E. The Effects of Social-and Self-motives on the Intentions to Share Positive and Negative Word of Mouth[J]. Journal of the Academy of Marketing Science, 2013, 41(5): 531-546. [本文引用:1]

0.0

1.169

... 鉴于此, 本文提出一种基于微博这一互联网新媒体的产品评价模式, 利用微博所特有的广泛性、实时性、群体智慧和情感词丰富等特征^[1], 设计出一种更加客观和真实的产品评价模式, 以便进一步促进微博用途的商业研究和开发, 更有效地实现其商业价值最大化 ...

0.0

... 1 B2C和C2C网站的产品评价模式(1) B2C产品评价模式: 以京东商城为例^[2], 购买过某种产品的用户在交易成功后可对其所购买的产品进行评价, 包括打分(1-5分, 满分为5分)、评价优点、评价不足、使用心得等 ...

0.0

... (2) C2C产品评价模式: 以淘宝网为例^[3,4], 其产品评价模式与B2C大体相似, 除了可以给产品打分和发表评论外, 用户还可以对卖家的服务态度、发货速度和物流速度进行打分评价 ...

2007

0.0

1.659

2011

0.0

... 国外的亚马逊和eBay等主流的电子商务网站也是这种产品评价模式^[5] ...

2011

0.0

... 2 独立第三方评价网站的产品评价模式以大众点评网和闺蜜网为例, 大众点评网主要是针对商户进行评价^[6], 以美食商户为例, 用户可以对餐厅总体进行打分(1-5分, 满分为5分), 另外还包括一些其他方面的补充评价, 如口味、环境、服务、人均、时段、餐厅氛围、餐厅特色、等位时间、停车信息等 ...

2011

0.0

0.4389

. 2011, 33(2):263-266

Foreign Research Status of Crowdsourcing

针对许多跨国公司和企业在将其生产经营活动全球化的同时,积极寻求外部资源以提高自身竞争力的情况,从众包的概念、基础要素和应用3个方面概述了国外企业众包的研究和应用现状,正确认识国外众包研究的动态,对于推动我国开放式创新研究的深入开展、服务企业创新战略具有一定的理论意义和现实意义.

... 具体的评价方法是: 按照某一产品主题, 筛选出公众微博中针对这一主题的评论性微博, 并根据发表这些微博的用户群体中无意识的众包^[7,8]行为所反映的情感倾向来进行该产品主题的评价 ...

2012

0.0

0.461

2014

0.0

... 另一方面, 这种评价方法减少了商家不正当的获得好评、消费者的恶意差评等^[9,10]不公平的行为, 也确保了评价的真实性 ...

2013

0.0

... 另一方面, 这种评价方法减少了商家不正当的获得好评、消费者的恶意差评等^[9,10]不公平的行为, 也确保了评价的真实性 ...

2013

0.0

... 另外, 由于微博文本较短(140字以内), 非常便于进行文本处理和情感分析, 这是和传统互联网网页情感分析^[11,12]有较大差别的地方 ...

2013

0.0

... 另外, 由于微博文本较短(140字以内), 非常便于进行文本处理和情感分析, 这是和传统互联网网页情感分析^[11,12]有较大差别的地方 ...