在线中文商品评论可信度研究

引用本文

孟美任, 丁晟春. 在线中文商品评论可信度研究. 现代图书情报技术, 2013, 29(9): 60-66
Meng Meiren, Ding Shengchun. Research on the Credibility of Online Chinese Product Reviews. New Technology of Library and Information Service, 2013, 29(9): 60-66 复制到剪切板

Permissions

在线中文商品评论可信度研究

孟美任, 丁晟春

南京理工大学信息管理系南京 210094

修回日期:2013-07-28

基金:本文系国家自然科学基金项目“基于文本语义挖掘的商品评论信息可信度分析研究” (项目编号:71103085) 的研究成果之一。

摘要

对在线中文商品评论中可信度较低的评论信息进行过滤, 为消费者提供对制定购买决策有帮助的评论。在深入分析在线中文商品评论特点的基础上, 结合相关研究成果, 通过问卷调查进行可信度影响因素的实证分析。根据实证结果, 选取内容完整性、情感平衡性、评论时效性以及发布者身份明确性4类特征, 采用CRFs模型进行评论可信度4级分类, 并进行特征组合实验, 得到最佳特征组合。实验效果显著, 分类模型正确率均在75%以上。该研究成果可以用于改善现有的“人工效用评价”方式, 为在线评论的优化过滤提供一种新的方法与思路。

关键词: 在线商品评论; 可信度; CRFs模型; 影响因素; 效用评价

Research on the Credibility of Online Chinese Product Reviews

Meng Meiren, Ding Shengchun

Department of Information Management, Nanjing University of Science & Technology, Nanjing 210094, China

Abstract

This paper aims at filtering the lower credible online Chinese product reviews to offer valuable reviews for consumers’ purchase decision. Based on the deep analysis of the online Chinese product reviews’ characteristics, also with some related works, the authors make an empirical analysis on the credibility factors through questionnaires. According to the results of the empirical analysis, the authors select content integrity, emotional balance, review timeliness and clarity of the identity of the publisher as four features, use CRFs as reviews credibility’s classification model, and conduct feature combination experiments to get the best feature combination. The experiments achieve significant results, and the correct rates of the classification model are all above 75%. The research results of this paper can improve the existing artificial effectiveness evaluation method, thus offering new methods and thoughts for optimized filtering of the online reviews.

Keyword: Online product reviews; Credibility; CRFs model; Affecting factor; Effectiveness evaluation

Show Figures

1 引言

在线商品评论可以作为消费者购买决策的重要参考依据、企业最直接的用户反馈, 还可以指导各级工商管理部门进行商品监管。但是目前存在大量恶意操纵在线商品评论从中牟利的行为。本文定位于解决在线中文商品评论可信度这一关键问题, 根据问卷调查实证分析结果, 选取可信度特征, 使用机器学习的方法, 得到效果好的可信度分类模型。该研究成果可以有效地改善目前“人工效用评价”方式, 更好地为消费者筛选出对制定购买决策有帮助的商品评论。

2 相关工作

近年来, 在线商品评论已逐渐成为学术界的研究热点。研究内容集中于评论挖掘工作, 主要包括评价对象抽取、情感极性分析等。但是对于在线商品评论可信度的研究相对较少, 相关研究主要围绕商品评论可信度影响因素、商品评论质量特征以及商品评论质量评价方法三个方面。

2.1 在线商品评论可信度影响因素相关研究

在线商品评论可信度影响因素研究中, 研究者主要从信源 (评论发布平台) 、信息传播者 (评论发布者) 、信息 (评论内容、结构等) 三个方面研究哪些因素会影响在线商品评论的可信度, 部分具有代表性的研究成果如表1所示:
表1 在线商品评论可信度影响因素

部分代表性研究成果

作者	时间 (年)	影响因素及结论
陈江涛等^{[ 1]}	2012	评论的详尽度
郝媛媛等^{[ 2]}	2010	情感倾向、正负情感混杂度主客观表达混杂度、较长的平均各句长度
Otterbacher^{[ 3]}	2009	评论内容的质量
李念武等^{[ 4]}	2009	同嗜性、传播者专业性、网站信心度、信任倾向
Liu等^{[ 5]}	2008	评论者的经验、评论者写作风格以及评论时效性
Ghose等^{[ 6]}	2007	观点句的主观性

通过分析发现, 该领域的研究者还未能通过影响因素分析结果进一步筛选出可信度较高的评论。但研究成果可以为可信度特征选取提供重要理论支持。

2.2 在线商品评论质量特征相关研究

在线商品评论质量特征的研究成果也可以作为可信度特征选取的重要依据之一。现有研究大致把质量特征分为文本特征以及元数据特征, 如表2所示:

表2 关于在线商品评论质量特征的研究成果

目前, 学术界对于什么特征能够准确表征商品评论的质量, 还没有达成统一的观点, 需要设计科学有效的方法对质量特征选择的可靠性和准确性进行验证。

2.3 商品评论质量评价方法研究

近年来, 商品评论质量评价问题已经从理论研究上升到方法的探讨, 并逐渐趋于实践。Hu等^{[ 12]}证明了目前存在部分出版商、作者以及卖家有意操纵评论信息。Hu等^{[ 13]}在管理图书在线评论的研究中, 开发出一个全权操作代理器, 执行结果表明大量欺诈性在线评论对商品的销售造成了严重的影响。Liu^{[ 14]}首次提出了观点欺诈问题, 对欺诈者的目标、行为、隐蔽技巧进行分析, 并从评论、评论者、服务器三方面提出欺诈检测思路。Jindal 等^{[ 15]}将评论分为不真实的评论、无关的评论以及非评论三种类型, 使用回归模型识别后两种垃圾评论, 使用Shingle算法进行第一种评论的识别, 发现实验结果存在遗漏, 召回率较低。Wu等^{[ 16]}利用同一商品下用户发表的唯一评论所占比例以及时间聚集程度来发现操纵评论的可疑行为。李霄等^{[ 17]}从评论、评论者和被评论的商品三个方面选择11个特征, 使用SVM对垃圾评论进行了二分类。

目前, 商品评论存在造假现象已经得到证明, 学者试图解决这一问题, 但仍存在以下几方面问题:

(1) 目前研究几乎都是基于英文语料。由于语法、语言结构等诸多方面的差异, 其研究成果不能直接用于中文语料, 本文方法致力于解决中文商品评论的可信度分类问题;

(2) 与国外相比, 国内在该领域的研究还主要集中于对影响因素以及特征的探讨。少量的垃圾评论识别研究, 虽然剔除了一部分垃圾评论, 但是非垃圾评论数量仍然庞大, 存在信息过载的现象, 本文对在线评论进行可信度4分类, 为消费者提供更加精华的评论信息;

(3) 在特征选取上现有研究并没有考虑商品评论独有的特点, 本文在特征选取时以商品评论的自身特点作为重要依据。

3 研究方法与方案设计

条件随机场 (Conditional Random Fields, CRFs)^{[ 18]}是由Lafferty等提出的, 其模型思想的主要来源是最大熵模型以及马尔可夫模型。CRFs模型是典型的判别式模型, 在给定标记的观察序列的条件下, 计算整个标记序列的联合概率。设X= (X1, X2, …, XN) 为待标注的观察数据序列上的随机变量, Y= (Y1, Y2, …, YN) 为相应的标注序列上的随机变量, 链式CRFs模型定义状态序列的联合条件概率为:
p (y|x) =1z (x) exp (∑i∑kλ_kf_k (y_i－1, y_i, x, i) )
z (x) =∑yexp (∑i∑kλ_kf_k (y_i－1, y_i, x, i) )

其中, z (x) 为归一化处理参数, f_k (y_i-1, y_i, x, i) 是基于给定输入的特征函数, 参数λ_k为特征函数f_k的权重, 可从训练数据中估计。λ_k表示事件发生的可能性。由此, 对于给定观察序列找到相应最可能的标记序列的任务就转化为对于给定的输入观察序列X, 找到一个输出标记序列Y*使得P (Y|X, M) 最大。
Y*=argmaxP (Y|X, M)

由于CRFs模型不对单个标记归一化, 避免了标记偏置问题。CRFs模型已被广泛应用于序列标记、数据分割、组块分析等自然语言处理任务中。同时, 本课题组之前采用CRFs模型进行了中文微博观点句抽取、商品评论评价对象抽取、评论情感极性及其强度计算等研究, 均获得了较好的准确率和召回率。

鉴于此, 本文选取CRFs模型作为实验分类模型, 设计研究思路如图1所示:

	Figure Option View Download New Window
	图1 商品评论可信度研究实验流程

(1) 编写自动爬取程序, 获取在线评论语料;

(2) 结合中文商品评论可信度已有研究成果, 深入分析在线中文商品评论可信度特征, 选取可信度影响因素, 设计调查问卷进行实证分析;

(3) 根据实证分析结果, 一方面, 选取实验特征, 构建特征库, 依照特征库对语料进行特征集自动标注; 另一方面, 制定可信度4级判别标准, 提出本文可信度标注方法, 对语料进行可信度标注, 得到最终的实验语料;

(4) 随机从语料集中选取20%语料作为训练集 (S) , 剩余作为测试集 (T) 。使用外部工具包CRF++-0.53对训练集S进行训练, 生成模型文件, 并且进行特征组合和多种模板实验, 调整特征阈值, 选取最佳特征模板, 生成最佳的商品评论可信度判别模型。

4 中文商品评论可信度特征分析实验

依据Liu^{[ 14]}对虚假评论发布者动机的分类, 以及本课题组的实地调研结果, 从造假评论发布者动机的角度分析商品评论可信度影响因素, 并进行实证分析, 根据实验结果, 选取可信度实验特征。

4.1 造假评论发布者动机分析

本文将造假评论发布者动机分为以下4种:

(1) 推销——为了提高自身销量, 对目标商品进行夸大的、不切合实际的正面评价。该类评论中的评价词几乎均为正面 (褒义) 词汇 (A1) , 并且往往会在短时间内 (A2) 对同一商品发布较多的评论 (A3) 。此类评论大多出现于“刚刚开店” (A4) 、“店铺搞活动” (A5) 、“调整价格” (A6) 时期。

(2) 诋毁——撰写大量错误、负面的评论来诋毁竞争对手的商品。该类评论中的评价词几乎均为负面 (贬义) 词汇 (B1) 。商家往往会诋毁比较有实力的竞争对手, 所以诋毁评论的情感倾向往往与该店铺的信誉存在差异 (B2) , 并且评论中涉及与此商品同类的其他品牌产品信息 (B3) 。

以上两类评论反映出可信度较高的商品评论中的评价词往往既包含正面词汇也包含负面词汇 (B4) , 情感极性平衡。

(3) 干扰——评论中还存在大量广告 (电话、QQ号) 、链接 (网址) 式评论, 此类评论中往往出现大量英文字母 (C1) 以及数字 (C2) ; 或者由于购买环节上的问题单纯发泄不满情绪的评论, 此类评论往往与商品本身毫无关系, 并不包含任何个人使用感受 (C3) 、产品属性 (C4) 等信息; 并且可信度高的商品评论的情感极性与其打分基本相符, 而为了误导简单检测算法的低可信度商品评论, 其对商品打分与评论的情感倾向性存在差异 (C5) 。

(4) 敷衍——觉得麻烦或为了赢得积分的敷衍评论, 也称之为无意义评论。此类评论大多使用几个单字 (D1) 进行简单评价, 如“好！”、“挺！”、“不错！”等。此类评论虽然可能不存在造假但是并没有对商品进行较长的详细评价 (D2) , 所以对消费者并无帮助。

另外, 从评论者的角度, 可以将评论者级别作为一项特征, 认为匿名 (E1) 发布的评论往往没有信誉较高的评论者 (E2) 发布的评论可信。而“人工效用”评价模块的“有用” (F1) 或“无用” (F2) 评论也会对可信度造成影响。在内容时效性方面, 认为发布时间越新 (G1) 的商品评论越能代表商品的当前情况, 其可信度较高。

4.2 商品评论可信度影响因素实证分析

笔者对南京理工大学、武汉理工大学等高校发放问卷200份, 回收172份, 其中有效问卷151份, 受访者年龄段集中在18岁-24岁之间, 是网上购物的主要群体。问卷设计为对4.1节所述因素进行详细描述的5级李克特量表, 1表示非常不信任, 5表示非常信任。对各影响因素变量进行描述性数据分析发现, 均值3.00为商品评论信息可信度正面影响与负面影响的临界值。笔者认为因素标准差越大, 说明该因素更偏离均值, 更能显著表征商品评论的可信程度, 排名前11的影响因素如表3所示:

表3 各因素标准差排名

根据影响因素、评论本身及其他相关属性、可信度理论等多个方面, 对商品评论可信度提出相关假设。通过信度和效度检验, 发现变量间有公共因子存在, 适合进行因子分析。总量表的α系数为0.777, 量表信度颇佳。经验证, 假设均得到支持。

4.3 特征选取

以4.2节中因素的标准差以及成立的假设为依据, 本文将影响因素分为内容完整性、情感平衡性、评论时效性以及发布者身份明确性4类。

(1) 内容完整性特征 (Fa:F1-F4)

评论中涉及个人体验感受和对应产品属性 (F1) 时, 对其可信度的影响是正向的; 当内容中包含大量数字 (F2) 或字母 (F3) 信息时, 对其可信度的影响是负面的。就其文本长度 (F4) 而言, 在合理范围内, 长度较长的评论能获得较高的可信度。

(2) 情感平衡性特征 (Fb:F5, F6)

评论的情感倾向极性越单一, 其可信度越低。即正面评价词所占比例 (该条评论正面评价词数量/该条评论所有评价词数量) (F5) 、负面评价词所占比例 (该条评论负面评价词数量/该条评论所有评价词数量) (F6) 越高, 其可信度越低。情感极性越平衡, 其获得的可信度越高。

(3) 评论时效性特征 (Fc:F7, F8)

发布时间 (F7) 越新的评论越能获得较高的可信度, 同时间段内发布次数 (F8) 过高则会对评论的可信度评判产生负面影响。

(4) 发布者身份明确性特征 (Fd:F9)

评论发布者的身份也对可信度构成影响, 评论的发布者评级 (F9) 越高, 身份越明确, 该评论的可信度越高。

5 中文商品评论可信度分类实验

5.1 语料集预处理

笔者依据Alexa排名, 选择淘宝网、新浪、太平洋电脑网以及中关村4个平台获取5 094条相机评论信息。由两位志愿者按照以下可信度判定标准对语料进行4级可信度标注:

(1) 可信度Ⅰ级评论:评论中无任何广告等无用信息, 包含详尽的产品属性评价、评论内容情感平衡, 可以很好地帮助消费者进行商品选择;

(2) 可信度Ⅱ级评论:评论中无任何广告等无用信息, 提到1-2个产品属性, 情感极性较为单一, 对消费者进行商品选择较为有用;

(3) 可信度Ⅲ级评论:评论中无任何广告等无用信息, 但内容简短, 如只有“不错！”、“好”等词语; 或者评论发布时间较为集中, 真实存在可疑, 对消费者进行商品选择用处不大;

(4) 可信度Ⅳ级评论:评论中含有网址联系方式等的广告贴, 或者只是单纯的情感发泄, 无法对购买决策起到帮助。

参考文献[19]对中文观点句标注的方法, 笔者提出了针对商品评论信息可信度的4级标注方法。要求两名志愿者分别用Ⅰ、Ⅱ、Ⅲ、Ⅳ标注评论可信度, 同时用数字1, 2, 3, 4表示对标注的确认程度, 1为不确定, 4为非常确定。将确认程度1和2, 3和4结合, 两名标注者J1、J2对4级可信度进行标注的结果如表4所示:

表4 J1和J2的标注结果

5.2 特征标注规则

实验中特征标注规则如表5所示:

表5 CRFs模型下特征标记及描述

5.3 实验结果分析

使用外部工具包CRF++-0.53进行实验。虽然前文选取的特征都可以表征商品评论的可信度, 但由于评论中各特征存在不确定性, 相互搭配存在随机性。所以本文对内容完整性 (Fa) 、情感平衡性 (Fb) 、评论时效性 (Fc) 以及发布者身份明确性 (Fd) 4类特征进行13种特征组合实验, 分别得到对Ⅰ、Ⅱ、Ⅲ、Ⅳ识别效果较好的特征组合, 结果如表6所示:

表6 特征组合实验结果

从表6可以发现, 本文的识别效果显著, 正确率均在75%以上。对实验结果分析如下:

(1) 特征组合Fa+Fb+Fd识别可信度Ⅰ级商品评论的效果最好。该级别评论具有内容详尽以及情感平衡的主要特点, 并且级别较高的评论者更愿意根据自身购买经验进行详细的评论, 以更好地帮助其他消费者进行购买决策的制定。

(2) 对于识别可信度Ⅱ级的商品评论, Fa+Fb为最佳特征组合。一般的购买者通常会对商品的1-2个属性进行评论, 与消费者等级并无太显著关系。另外, 大部分出于推销和诋毁目的的造假者发布的商品评论都属于可信度Ⅱ级, 为避免被发现造假, 内容往往与可信度Ⅰ级评论较为相似。虽然本文的模型对于该级别评论的识别效果为4级中最低的, 但是也达到了76.81%, 向消费者推荐时, 可以在时间区间相同的条件下, 排序在可信度Ⅰ级评论之后。

(3) 单独使用Fa就可以很好地识别可信度Ⅲ级商品评论。在可信度标注时就发现了大量只用单个字或几个字进行评论的现象。而Fa特征恰恰表征了评论的详尽程度, 所以本文模型对于该级别评论的识别效果为4级中最高的, 同时保持了较高的召回率。另外, 发现本文选取特征F8存在缺陷, 由于大量造假信息是由计算机批量发布, 内容差别不大, 甚至完全相同。所以应对时间段再次缩短, 并同时比对短时间发布信息的内容差别性。

(4) 对于识别可信度Ⅳ级评论, Fa+Fd的特征组合效果最好。因为Fa特征包括数字、字母的比例, 这恰恰是广告贴的明显标志。但是模型漏掉了一些情感发泄等与主题毫无关系的商品评论, 导致召回率偏低。主要原因是部分商品评论隐去了评价对象, 只含有评价词, 导致模型混淆了单纯的情感发泄与Ⅱ级可信度情感单一的商品评论, 可以考虑通过加入本体来解决隐性评价对象识别问题。

6 结语

本文选取内容完整性、情感平衡性、评论时效性以及发布者身份明确性4类特征, 采用CRFs模型进行可信度4级分类。对4类特征进行特征组合实验, 分别得到了对可信度Ⅰ、Ⅱ、Ⅲ、Ⅳ级商品评论识别效果最好的特征组合。

另外, 依据本文的研究成果可以改善目前的“人工效用评价”方式。首先, 较新的评论往往没有足够时间获得更高的“有用”票数, 所以“有用”票数不高的评论并不意味着对消费者毫无帮助。依据本文的研究方法, 剔除掉可信度Ⅲ、Ⅳ级商品评论, 再按照可信度I、II级对商品评论进行排序, 以此来替代根据“有用”投票数向用户推荐评论的方式; 其次, “人工效用评价”方式认为用户打分为4星、5星并且“有用”投票数越高的评论为“最有帮助的好评”。本文提出的情感平衡性特征可以更好地反映商品评论的情感极性, 与可信度分类结果相结合, 能够更为准确地向用户推荐“最有帮助的好评”以及“最有帮助的差评”。

参考文献

View Option

[1]	陈江涛, 张金隆, 张亚军. 在线商品评论有用性影响因素研究: 基于文本语义视角[J]. 图书情报工作, 2012, 56 (10) : 119-123. (Chen Jiangtao, Zhang Jinlong, Zhang Yajun. Impact Factors of Online Customer Reviews Usefulness: A Text Semantics Approach [J]. Library and Information Service, 2012, 56 (10) : 119-123. ) [本文引用:1] [CJCR: 1.193]
[2]	郝媛媛, 叶强, 李一军. 基于影评数据的评论有用性影响因素研究[J]. 管理科学学报, 2010, 13 (8) : 78-88, 96. (Hao Yuanyuan, Ye Qiang, Li Yijun. Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data [J]. Journal of Management Sciences in China, 2010, 13 (8) : 78-88, 96. ) [本文引用:1] [CJCR: 1.411]
[3]	Otterbacher J. " Helpfulness" in Online Communities: A Measure of Message Quality[C]. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York, NY, USA: ACM, 2009: 955-964. [本文引用:1]
[4]	李念武, 岳蓉. 网络口碑可信度及其对购买行为之影响的实证研究[J]. 图书情报工作, 2009, 53 (22) : 133-137. (Li Nianwu, Yue Rong. An Empirical Study on Credibility of Online Word-of-Mouth and Its Effects on Consumers’ Purchase Behavior [J]. Library and Information Service, 2009, 53 (22) : 133-137. ) [本文引用:1] [CJCR: 1.193]
[5]	Liu Y, Huang X J, An A, et al. Modeling and Predicting the Helpfulness of Online Reviews[C]. In: Proceedings of the 8th IEEE International Conference on Data Mining. Washington: IEEE Computer Society, 2008: 443-452. [本文引用:1]
[6]	Ghose A, Ipeirotis P G. Designing Novel Review Ranking Systems: Predicting the Usefulness and Impact of Reviews[C]. In: Proceedings of the 9th International Conference on Electronic Commerce. New York, NY, USA: ACM, 2007: 303-310. [本文引用:1]
[7]	Kim S M, Pantel P, Chklovski T, et al. Automatically Assessing Review Helpfulness[C]. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2006: 423-430. [本文引用:1]
[8]	Weimer M, Gurevych I. Predicting the Perceived Quality of Web Forum Posts[C]. In: Proceedings of Recent Advances in Natural Language Processing, Bororets, Bulgaria. 2007: 643-648. [本文引用:1]
[9]	Zhang Z. Weighing Stars: Aggregating Online Product Reviews for Intelligent E-commerce Applications[J]. IEEE Intelligent Systems, 2008, 23 (5) : 42-49. [本文引用:1] [JCR: 2.154]
[10]	Abbasi A, Chen H, Salem A. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums[J]. ACM Transactions on Information Systems, 2008, 26 (3) : 1-34. [本文引用:1] [JCR: 1.07]
[11]	Ahmed A, Hsinchun C. Applying Authorship Analysis to Extremist-Group Web Forum Messages[J]. IEEE Intelligent Systems, 2005, 20 (5) : 67-75. [本文引用:1] [JCR: 2.154]
[12]	Hu N, Liu L, Sambamurthy V. Fraud Detection in Online Consumer Reviews[J]. Decision Support Systems, 2011, 50 (3) : 614-626. [本文引用:1] [JCR: 2.201]
[13]	Hu N, Bose I, Gao Y J, et al. Manipulation in Digital Word of Mouth: A Reality Check for Book Reviews[J]. Decision Support Systems, 2011, 50 (3) : 627-635. [本文引用:1] [JCR: 2.201]
[14]	Liu B. Web Data Mining [M]. Berlin: Springer, 2009: 316-317. [本文引用:2]
[15]	Jindal N, Liu B. Review Spam Detection[C]. In: Proceedings of the 16th International Conference on World Wide Web, Banff, Alberta, Canada. New York, NY, USA: ACM, 2007: 1189-1190. [本文引用:1]
[16]	Wu G, Greene D, Smyth B, et al. Distortion as a Validation Criterion in the Identification of Suspicious Reviews[C]. In: Proceedings of the 1st Workshop on Social Media Analytics. Washington, DC, USA: ACM, 2010: 10-13. [本文引用:1]
[17]	李霄, 丁晟春. 垃圾商品评论信息的识别研究[J]. 现代图书情报技术, 2013 (1) : 63-68. (Li Xiao, Ding Shengchun. Research on Review Spam Recognition [J]. New Technology of Library and Information Service, 2013 (1) : 63-68. ) [本文引用:1] [CJCR: 1.073]
[18]	Lafferty J D, McCallum A, Pereira F C N. Conditional Rand om Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In: Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. ,2001: 282-289. [本文引用:1]
[19]	叶强, 张紫琼, 罗振雄. 面向互联网评论情感分析的中文主观性自动判别方法研究[J]. 信息系统学报, 2007, 1 (1) : 79-91. (Ye Qiang, Zhang Ziqiong, Luo Zhenxiong. Automatically Measuring Subjectivity of Chinese Sentences for Sentiment Analysis to Reviews of the Internet[J]. China Journal of Information Systems, 2007, 1 (1) : 79-91. ) [本文引用:1]

2012

0.0

1.193

2010

0.0

1.411

J Manag Sci China. 2010, (8):78 - 88

Research on online impact factors of customer reviews usefulness based on movie reviews data

基于影评数据的在线评论有用性影响因素研究

HAOYuan-yuan;YEQiang;LIYi-jun

郝媛媛;叶强;李一军

面对互联网上海量的在线客户评论,如何能快速有效地进行识别和选择从而发现和利用其中有用的评论,已经成为人们关注的重要问题.以体验型商品电影的在线评论为研究对象,结合文本挖掘技术和实证研究方法,从文本特征出发探索影响在线评论有用性的因素,建立在线评论有用性影响因素模型,并利用该模型对评论有用性进行分类预测.与现有相关研究相比,提出的模型总体拟合效果显著提高,并发现在线影评中积极的情感倾向、较高的正负情感混杂度、较高的主客观表达混杂度以及较长的平均各句长度,对评论的有用性具有显著的正面影响.最后预测结果表明,该模型对在线影评的有用性具有较强的判别能力.

2009

0.0

2009

0.0

1.193

Lib Inf Serv. 2009, (22):133 - 137

An Empirical Study on Credibility of Online Word-of-Mouth and Its Effects on Consumers' Purchase Be-havior

网络口碑可信度及其对购买行为之影响的实证研究

LiNianwu[1];YueRong[2]

李念武[1];岳蓉[2]

分析正面和负面网络口碑可信度的影响因素以及这两种口碑如何影响消费者对商家的信任和购买行为.数据分析结果表明,同嗜性、点评站点可信度以及信任倾向对两种口碑的可信度都有显著影响,而传播者专业性仅对正面网络口碑的可信度有显著作用.正面网络口碑的可信度显著正向影响消费者对被点评商家的信任,但并不显著影响购买意向,购买意向受到对商家信任的显著影响,也进一步显著作用于购买行为.反之,负面口碑的可信度同时负向影响消费者对商家的信任和购买意向,但与商家信任、购买意向以及购买行为之间均无显著关系.

2008

0.0

2007

0.0

2006

0.0

2007

0.0

2008

2.154

0.0

2008

1.07

0.0

2005

2.154

0.0

2011

2.201

0.0

Decis Support Syst. 2011, 50(3):614 - 626 DOI:10.1016/j.dss.2010.08.012

Fraud detection in online consumer reviews <a href="#item1" id="bitem1" class="intra_ref">☆</a>

<name>Hu N</name>, <name>Liu L</name>, <name>Sambamurthy V</name>.<article-title>Fraud Detection in Online Consumer Reviews</article-title>[J]. <source>Decision Support Systems</source>, <year>2011</year>, <volumn>50</volumn> (<issue>3</issue>) :<fpage>614</fpage>-<lpage>626</lpage>.

<h2 class="secHeading" id="section_abstract">Abstract</h2>Increasingly, consumers depend on social information channels, such as user-posted online reviews, to make purchase decisions. These reviews are assumed to be unbiased reflections of other consumers' experiences with the products or services. While extensively assumed, the literature has not tested the existence or non-existence of review manipulation. By using data from Amazon and Barnes & Noble, our study investigates if vendors, publishers, and writers consistently manipulate online consumer reviews. We document the existence of online review manipulation and show that the manipulation strategy of firms seems to be a monotonically decreasing function of the product's true quality or the mean consumer rating of that product. Hence, manipulation decreases the informativeness of online reviews. Furthermore though consumers understand the existence of manipulation, they can only partially correct it based on their expectation of the overall level of manipulation. Hence, vendors are able to change the final outcomes by manipulating online reviewers. In addition, we demonstrate that at the early stages, after an item is released to the Amazon market, both price and reviews serve as quality indicators. Thus, at this stage, a higher price leads to an increase in sales instead of a decrease in sales. At the late stages, price assumes its normal role, meaning a higher price leads to a decrease in sales. Finally, on average, there is a higher level of manipulation on Barnes & Noble than on Amazon.

... Hu等[<xref ref-type="bibr" rid="R12">12</xref>]证明了目前存在部分出版商、作者以及卖家有意操纵评论信息 ...

2011

2.201

0.0

Decis Support Syst. 2011, 50(3):627 - 635 DOI:10.1016/j.dss.2010.08.013

Manipulation in digital word-of-mouth: A reality check for book reviews

<name>Hu N</name>, <name>Bose I</name>, <name>Gao Y J</name>, et al.<article-title>Manipulation in Digital Word of Mouth:A Reality Check for Book Reviews</article-title>[J]. <source>Decision Support Systems</source>, <year>2011</year>, <volumn>50</volumn> (<issue>3</issue>) :<fpage>627</fpage>-<lpage>635</lpage>.

<h2 class="secHeading" id="section_abstract">Abstract</h2>Built upon the discretionary accrual-based earnings management framework, our paper develops a discretionary manipulation proxy to study the management of online reviews. We reveal that fraudulent review manipulation is a serious problem for 1) non-bestseller books; 2) books whose reviews are classified as not very helpful; 3) books that experience greater variability in the helpfulness of their online reviews; and 4) popular books as well as high-priced books. We also show that review management decreases with the passage of time. Just like fraudulent earnings management, manipulated online reviews reflect inauthentic information from which consumers might derive wrong valuation especially for books with the above characteristics and be persuaded to purchase the wrong item. The findings from this research sound a note of caution for all consumers that make use of online reviews of books for making purchases and encourage them to delve deeper into the reviews without getting trapped in their fraudulent manipulation.

... Hu等[<xref ref-type="bibr" rid="R13">13</xref>]在管理图书在线评论的研究中, 开发出一个全权操作代理器, 执行结果表明大量欺诈性在线评论对商品的销售造成了严重的影响 ...

2009

0.0

... Liu[<xref ref-type="bibr" rid="R14">14</xref>]首次提出了观点欺诈问题, 对欺诈者的目标、行为、隐蔽技巧进行分析, 并从评论、评论者、服务器三方面提出欺诈检测思路 ...

... 4 中文商品评论可信度特征分析实验依据Liu[<xref ref-type="bibr" rid="R14">14</xref>]对虚假评论发布者动机的分类, 以及本课题组的实地调研结果, 从造假评论发布者动机的角度分析商品评论可信度影响因素, 并进行实证分析, 根据实验结果, 选取可信度实验特征 ...

2007

0.0

... Jindal 等[<xref ref-type="bibr" rid="R15">15</xref>]将评论分为不真实的评论、无关的评论以及非评论三种类型, 使用回归模型识别后两种垃圾评论, 使用Shingle算法进行第一种评论的识别, 发现实验结果存在遗漏, 召回率较低 ...

2010

0.0

... Wu等[<xref ref-type="bibr" rid="R16">16</xref>]利用同一商品下用户发表的唯一评论所占比例以及时间聚集程度来发现操纵评论的可疑行为 ...

2013

0.0

1.073

New Technol Lib Inf Ser. 2013, 29(1):63 - 68

Research on Review Spam Recognition

垃圾商品评论信息的识别研究

Li Xiao, Ding Shengchun

李霄, 丁晟春

Department of Information and Management, Nanjing University of Science & Technology, Nanjing 210094, China

This paper analyses review spam from the perspective of the usefulness of information, selects digital camera reviews as the research object and builds the data set, then from the three aspects of review, reviewer and product chooses 11 features, uses 4 different kernel functions in SVM model to identify review spam of products, optimizes the parameters C and γ of RBF that has a better identification, which improves accuracy rate of the identification effect of review spam to 78.16% and recall rate to 72.18%. By comparing the selected 4 different combinations of features, the authors find the combination of review, reviewer and product is the best. Finally, it proves that SVM is significantly better than other algorithms compared to the Logistic Regression.

从信息有用性的角度对垃圾商品评论信息进行分析,选择数码领域的相机评论作为研究对象,构建数据集,从评论、评论者和被评论的商品三个方面选择11个特征,使用支持向量机模型中4种常用的核函数进行垃圾商品评论的识别,对识别效果较好的RBF核函数中的参数C和γ进行优化,使得商品评论中的垃圾评论识别的准确率提高到78.16%,召回率提高到72.18%,并选取4种不同特征组合进行对比,证明评论、评论者和被评论的商品三大特征组合的效果最好,最后通过与Logistic回归模型的对比,验证SVM对垃圾评论的识别效果明显优于其他算法。

... 李霄等[<xref ref-type="bibr" rid="R17">17</xref>]从评论、评论者和被评论的商品三个方面选择11个特征, 使用SVM对垃圾评论进行了二分类 ...

2001

0.0

... 3 研究方法与方案设计条件随机场 (Conditional Random Fields, CRFs) [<xref ref-type="bibr" rid="R18">18</xref>]是由Lafferty等提出的, 其模型思想的主要来源是最大熵模型以及马尔可夫模型 ...

2007

0.0