基于文本挖掘的不同购物网站商品评论一致性研究
施国良, 石桥峰
河海大学商学院 南京 211100
摘要

基于文本挖掘的理论,提出不同购物网站商品评论对比分析的方法,对不同购物网站同一商品评论是否一致进行研究。首先对商品单个特征的评论进行对比分析,然后衍生到商品的整体特征对比。研究发现,不同购物网站对同一商品的评论并不完全一致,这种不一致主要体现在商品特征上面,这说明商品评论会因为购物网站的不同而有所差异。

关键词: 商品评论; 购物网站; 文本挖掘
中图分类号:G350 TP391
Text Mining-based Consistency of Product Reviews in DifferentShopping Websites
Shi Guoliang, Shi Qiaofeng
Business School, Hohai University, Nanjing 211100, China
Abstract

Based on the theory of text mining, this paper puts forward a contrast method of product reviews in different shopping websites, and makes analysis on whether the product reviews from different shopping websites are consistent. Firstly,this paper analyses the reviews of product feature one by one. Then, it makes contrast analysis from one product feature to total product features. The study discovers that the reviews of the same product from different shopping websites are not completely consistent, and this inconsistency mainly reflects in product features, which means product reviews will be different due to different shopping websites.

Keyword: Product reviews; Shopping websites; Text mining
1 引 言

随着电子商务的发展,人们已经习惯在购物网站上发表对商品的评论,这些评论反映了消费者对已购买商品的态度。通常,在购物之前,消费者一般都会查看相关商品评论。因此如果消费者不了解商品信息,那么购物网站上面关于商品的评论会影响消费者的购买想法,然而不同购物网站的评论对消费者的影响是否相同,还需要深入研究。

本文基于文本挖掘的理论,采用观点挖掘的方法,提出不同购物网站评论对比的公式和算法,对不同购物网站关于同一商品的评论是否一致进行深入研究。以购物网站的评论内容为研究对象,着重研究代表消费者观点的评论内容是否一致。旨在通过对此问题的研究,探讨不同购物网站评论的差异,同时分析这种差异对消费者以及企业的影响。

2 研究背景

关于观点评论,国内外的很多学者[ 1, 2, 3, 4, 5]都做过相关研究,包括观点提取、观点排序、评论意见挖掘模型等。然而,已有研究分析的都是单个网站的评论,并且研究重点放在观点评论的挖掘方法上面[ 6, 7, 8, 9, 10],针对的是技术和方法,而非内容。本文采用文本挖掘的方法,对文本挖掘的内容进行研究,是对现有研究的扩展。

研究的范围从单个网站延伸到多个网站。单个网站的商品评论只能表现消费者对商品的看法,而且单个网站的研究有一定的局限性,参考价值不大。分析多个网站的商品评论可以排除因评论平台不同而引起的差异,这对消费者或企业而言,都有实际的应用价值。研究不仅仅局限于评论内容本身,还着重分析不同购物网站商品评论的内在关系,即研究不同购物网站的评论是否一致,通过一致性研究可以发现商品以及不同购物网站的相同点和不同点。

3 购物网站商品评论的特征

购物网站的商品评论代表消费者对某一商品的主观评价,主要包括商品特征和评论观点极性。

商品特征是指评论的对象。根据商品评论内容,可以将评论中涉及的商品特征分为两种类型:代表商品某一特征的对象,包括商品的质量、价格、性价比、颜色等;与商品购买、配送有关的对象,包括发货速度、服务、包装等。由于购物网站评论的随意性很大,因此对同一商品特征的表述也有可能不一致。例如:外表、外观表示的都是对商品外观的评价;照片、拍照、照相效果表示的都是对商品拍照功能的评价。因此在观点提取的时候,需要对表述不同但意思相同的同一类商品特征进行组合,将这些商品特征的评价归为同一类。

评论观点极性是指消费者对产品进行评论时所表达的观点的倾向性,一些学者已做了相关研究[ 11, 12],通常采用极性词来表达观点的倾向性。按照观点的不同,可以把极性词分为:褒义、中性、贬义[ 13]。在本文中,将消费者对商品特征评论的极性词分为:好评、中立、差评。

4 研究设计
4.1 商品评论分类

商品评论分类指按照商品特征对购物网站的评论进行分类,通过分类可以将整体评论分为多类不同的评论。本文将商品评论按照质量、价格、外观等商品特征分为10类。

通过商品评论分类,就可以将不同购物网站关于同一商品的评论按照商品特征进行对比。比如,如果购物网站A与购物网站B需要对同一商品的评论进行对比,那么就可以分别对比两个网站关于质量、价格、外观等产品特征的评论,从而将整体对比划分为多个相同特征的评论对比。

4.2 商品特征对比方法

商品特征对比指对具体的商品特征评论进行对比,对比的目的是判断不同网站关于同一商品特征的评论是否一致。

由于商品评论来自不同的购物网站,因此同一商品特征的评论总数不同,为了避免此因素对商品特征对比带来的影响,提出如下规定,认为如果对比符合下列规定,那么不同购物网站关于同一商品特征的评论一致。

规定1:假如不同购物网站对同一商品特征的评论态度中某一态度的比例均达到90%以上,认为不同购物网站对同一商品特征的评论一致。例如:A、B两个购物网站对外观的好评比例均在90%以上,那么认为A、B两个购物网站对外观这一商品特征的评论一致。

规定2:假如不同购物网站对同一商品特征的评论相似度达到90%,那么认为不同购物网站对同一商品特征的评论一致。例如:A、B两个购物网站中对商品外观的好评、中立、差评的各自的比例之比均大于等于90%,那么认为A、B两个购物网站对外观这一商品特征的评论一致。

笔者提出比例计算公式如下:

≥90%

其中,Na_p%表示A购物网站中对外观的好评、中立或差评比例,Nb_p%表示B购物网站中对外观的好评、中立或差评比例。

此外,作者还提出采用如下函数来表示商品特征对比的结果:

F(Vi)=

Vi表示第i个商品特征。F(Vi)表示商品特征评论对比值,值为1表示不同购物网站对商品特征Vi的评论一致,值为0表示不同购物网站对商品特征Vi的评论不一致。因此,最终商品特征比较的结果可以用表格来表示,具体如表1所示:

表1 商品特征比较结果

若表中F(Vi)值为1,则表示两个网站关于特征i的评论一致,若表中F(Vi)值为0,则表示两个网站关于特征i的评论不一致。

4.3 商品整体对比方法

商品整体对比建立在商品特征对比的基础上,其结果用商品整体评价函数来表示如下:

T=W1F(V1)+W2F(V2)+…+WiF(Vi)

其中,函数值T表示商品的整体评价对比值。F(Vi)指不同购物网站中商品特征Vi的比较值,值为1或0。Wi指第i个商品特征在不同购物网站中的总权重。 Wi的计算公式如下:

Wi=

其中,Na_total指的是购物网站A的评论总数,Nb_total指的是购物网站B的评论总数,Na_i_opinion指的是购物网站A中第i个商品特征的评论总数;Nb_i_opinion指的是购物网站B中第i个商品特征的评论总数。

通过计算,可以得到函数T的值,T的取值范围是[0,1]。当T=0时,认为两个购物网站的评论完全不一致,当T=1时,认为两个购物网站的评论完全一致,当T值在两者之间时,例如T=x(0

5 数据与方法
5.1 数据来源

所选数据分别来自淘宝网和京东网,从对N97手机的评论中,分别选取400条作为实验数据。已有学者对网页数据提取[ 14]进行过研究,网页数据采集可以借助软件,也可以手动采集网页数据,本文采用网络信息采集大师软件完成数据的采集。

5.2 实验过程

观点提取一般包括4个步骤:预处理、特征提取、极性词提取和观点评论提取。

(1)预处理包括对原始数据进行过滤和中文分词两个步骤。数据过滤的目的是去除原始数据中的“无效评论”和“重复评论”。“无效评论”指网络评论中与评论主题无关的评论,这些评论包括广告和不相关的言论。“重复评论”指同一个用户多次发表相同的评论。由于数据过滤需要根据评论内容来判断,所以本文采用手动方式过滤数据,经过过滤,淘宝网有393条有效评论,京东网有396条有效评论。之后是中文分词,目前一些学者也有相关研究[ 15],本文分词工具采用的是哈尔滨工业大学信息检索研究室研发的LTP(语言技术平台)[ 16]。通过LTP对评论进行分词,将分词的结果以TXT文本形式保存。

(2)特征提取指提取评论中涉及到的商品特征。目前关于特征提取[ 17, 18]的技术已经很丰富。特征提取需要参考特征词典,特征词典可以从样例中获取,也可以参考企业提供的产品特征,本文以商品评论为样例,从样例中获取特征词典作为特征提取的依据。

(3)极性词提取指提取评论中代表消费者观点的词,通常可以参考已有的极性词词典,如HowNet词典[ 19]。本文除了参考极性词典外,还人工添加了代表观点的一些新词汇,如:给力、拉风、杠杠的。

(4)观点评论提取指以某种特定形式提取一条评论, 中外学者已有不少研究[ 20, 21]。 本文最终提取的观点是{(特征,评论词),观点倾向}的形式。特征指的是评论中涉及的商品特征;评论词指对特征的主观评价,即极性词;观点倾向指的是评论的整体倾向,分为好评、中立、差评三种。

采用GATE软件进行产品特征提取和极性词提取,整体实验步骤如下:

(1)利用网页信息采集大师分别从淘宝网和京东网采集400评论,并将采集的数据以TXT形式导出。

(2)对采集的数据进行处理,去掉“无效评论”和“重复评论”。

(3)采用LTP分词工具对处理后的数据进行分词,分词后的数据保存为TXT形式,保存格式为:UFT-8。

(4)将特征词典和极性词词典先保存为TXT格式,再转换为.lst格式,并且新建.def格式文件引用.lst格式文件。

(5)使用GATE软件,导入步骤(3)中的.txt文件和步骤(4)中的.def文件,进行相关配置并运行程序,GATE软件会根据配置提取评论中的商品特征以及评论极性词。

(6)根据GATE软件运行结果,参照观点评论提取模式手动提取评论观点,并判断评论倾向。

(7)将提取的评论按照商品特征进行分类,计算各类商品特征的评论总数以及各自的好评数和差评数。

步骤(3)和步骤(4)中涉及的.lst格式和.def格式文件为GATE软件所使用的格式文件。

5.3 结果描述

考虑到对比的商品评论必须存在于不同的购物网站中,因此排除只在单个购物网站中出现的评论特征,同时对评论数量极少(少于10条)的特征也不予考虑。最终得到的商品特征为外观、键盘、触摸屏、电池、价格、质量、整体、系统、外放、性能,相应的商品特征评论数量如表2所示:

表2 商品特征的评论分布

采用商品特征对比方法,对两个网站涉及的10类商品特征进行对比。最终评论一致的商品特征共7类,分别为:外观、键盘、触摸屏、电池、质量、整体、外放;评论不一致的商品特征共三类,分别为:价格、系统、性能。

6 结果分析与思考
6.1 结果分析

商品特征在淘宝网以及京东网的评论分布如图1所示:

图1 商品特征评论分布

可以发现,不同商品特征的评论总数各不相同,比如外观、价格的评论总数近似是系统、外放等商品特征评论总数的2倍。这说明消费者关注的商品特征存在差异,消费者在进行商品评论的时候,评论的内容会有侧重。

商品特征对比结果如图2所示,其中正值表示评论一致,负值表示评论不一致。

图2 基于规定的对比结果

可以发现,仅有价格、系统、性能这三个商品特征的对比结果不一致。此时总体一致性为67.9%。对于价格特征,淘宝网中主流评论是差评,京东网中主流评论是好评。对于系统特征,淘宝网中持好评态度的较多,而京东网中持差评态度的较多。对于性能特征,淘宝网中好评和差评近似相同,而京东网中持差评态度的较多。对于其他特征,如外观、键盘等,淘宝网和京东网的评论近似一致,说明消费者对这些特征所持观点一致。

通过上述分析可知,一方面消费者对商品的评论会有所侧重,对自己关注的商品特征会多做评论。另一方面不同购物网站的一致性比例不是很高,也就是说不同购物网站关于同一品牌商品的评论不一致。

6.2 研究与思考

购物网站商品评论对消费者以及企业而言,都是十分有效的信息来源,对不同的购物网站评论进行对比,判断评论是否一致,可以很好地帮助消费者或者企业分析信息的可靠性。不同网站中表述相同的评论一定程度上代表了真实可靠的信息,而分析表述不同的评论可以获取企业与企业之间的差异信息。因此,不同购物网站关于商品评论是否一致的研究对消费者以及企业都有很好的实际应用价值。

对于消费者,购物网站的商品评论是了解商品信息非常有效的途径,然而由于购物网站数目繁多,如果不同购物网站的评论不尽相同,那么消费者更难获取正确的信息。通过一致性判断不仅可以让消费者了解商品的基本信息,还可以发现不同购物网站的优势和劣势。消费者在购买商品的时候最关注的是商品的质量,如果多个购物网站对某一商品特征评价一致,那么就可以确定商品的这一特征是好还是差。除此之外,购物网站的销售服务、网站制度等因素也同样会影响消费者的购买想法。一般情况下,消费者会更青睐于服务质量好、方便安全的购物网站。但是,仅仅通过浏览评论,并不能有效地进行判断,而通过一致性分析,可以很容易让消费者得到正确的信息。因此,一致性判断是消费者了解商品以及购物网站详细信息的有效方法。

企业通过一致性研究可以获取消费者以及竞争对手的信息,进而及时做出应对策略。消费者在购买商品的时候,除了重视商品质量外,还会考虑服务质量、制度等,因此评论内容还会包含对企业服务的评论等。这些评论直接来源于消费者,最能代表消费者的真实想法。企业通过对不同购物网站的评论进行一致性分析,可以发现消费者最关注的内容,而这正是消费者的需求所在,企业可以据此做出自身战略调整。此外,通过一致性分析,企业可以获取竞争对手的信息,发现与其他企业的差异,比如质量、服务的差异。这些都可以通过一致性分析直接表现出来,在此基础上,企业可以针对自己的不足,及时做出调整,弥补弱点。

7 结 语

本文提出了一种判断不同购物网站对同一商品评论是否一致的方法,通过对商品评论进行细分,先对特征评论进行对比,再对整体评论进行对比,可以很有效地得出整体对比的结果。通过对比分析,消费者可以获取商品的基本信息,企业可以获取消费者的实际需求以及企业的优缺点。论文中对单独评论以及不足评论的分析可以作为未来的研究方向,有待进一步拓展。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 孔亮, 石磊, 孙伯, . Web评论主流观点提取及不同源数据的对比分析[J]. 计算机研究与发展, 2009, 46(Z1): 1-7. [本文引用:1]
[2] Li N, Wu D D. Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast[J]. Decision Support Systems, 2010, 48(2): 354-368. [本文引用:1] [JCR: 2.201]
[3] 李培. 产品评论挖掘的观点抽取和分类技术研究[D]. 重庆: 重庆大学, 2009. [本文引用:1]
[4] 沈陵峰. 网上产品评价的意见挖掘模型研究[D]. 合肥: 中国科学技术大学, 2010. [本文引用:1]
[5] 曹斌. 互联网上旅游评论的情感分析及其有用性研究[D]. 哈尔滨: 哈尔滨工业大学, 2008. [本文引用:1]
[6] Tsai F S, Kwee A T. Database Optimization for Novelty Mining of Business Blogs[J]. Expert Systems with Applications, 2011, 38(9): 11040-11047. [本文引用:1] [JCR: 1.854]
[7] Chang C W, Lin C T, Wang L Q. Mining the Text Information to Optimizing the Customer Relationship Management[J]. Expert Systems with Applications, 2009, 36(2): 1433-1443. [本文引用:1] [JCR: 1.854]
[8] Drewes B. Some Industrial Applications of Text Mining[J]. StudFuzz, 2005, 185: 233-238. [本文引用:1]
[9] Roussinov D, Zhao J L. Automatic Discovery of Similarity Relationships Through Web Mining[J]. Decision Support Systems, 2003, 35(1): 149-166. [本文引用:1] [JCR: 2.201]
[10] Thorleuchter D, Poel D V d, Prinzie A. Mining Ideas from Textual Information[J]. Expert Systems with Applications, 2010, 37(10): 7182-7188. [本文引用:1] [JCR: 1.854]
[11] Turney P, Littman M. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315-346. [本文引用:1] [JCR: 1.07]
[12] Liu B, Hu M, Cheng J. Opinion Observer: Analyzing and Comparing Opinions on the Web[C]. In: Proceedings of the 14th International World Wide Web Conference. Now York: ACM Press, 2005: 324-351. [本文引用:1]
[13] 钱杰, 网络评论观点的倾向性分析[D]. 网络评论观点的倾向性分析[D]. 杭州: 浙江工业大学, 2008. [本文引用:1]
[14] 王琦, 唐世渭, 杨冬青, . 基于DOM的网页主题信息自动提取[J]. 计算机研究与发展, 2004, 41(10): 1786-1792. [本文引用:1]
[15] 张海燕. 基于分词的中文文本自动分类研究与实现[D]. 长沙: 湖南大学, 2002. [本文引用:1]
[16] 姚晓娜. BBS热点话题挖掘与观点分析[D]. 大连: 大连海事大学, 2008. [本文引用:1]
[17] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]. In: Proceedings of the 19th National Conference on Artificial Intelligence. San Jose: AAAI, 2004: 755-760. [本文引用:1]
[18] Riloff E, Wiebe J. Learning Extraction Patterns for Subjective Expressions[C]. In: Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. PA, USA: ACLS, 2003: 105-112. [本文引用:1]
[19] 娄德成. 基于 NLP技术的中文网络评论观点抽取方法的研究[D]. 上海: 上海交通大学, 2007. [本文引用:1]
[20] 娄德成, 姚天昉. 汉语句子语义极性分析和观点抽取方法的研究[J]. 计算机应用, 2006, 26(11): 22-25. [本文引用:1]
[21] Xu K, Liao S S, Li J, et al. Mining Comparative Opinions from Customer Reviews for Competitive Intelligence[J]. Decision Support Systems, 2010, 50(4): 743-754. [本文引用:1] [JCR: 2.201]