产品评论垃圾识别研究综述<sup>*</sup>

引用本文

聂卉, 王佳佳. 产品评论垃圾识别研究综述^* . 现代图书情报技术, 2014, 30(2): 63-71
Nie Hui, Wang Jiajia. Review of Product Review Spams Detection. 现代图书情报技术, 2014, 30(2): 63-71 复制到剪切板

Permissions

《现代图书情报技术》编辑部

产品评论垃圾识别研究综述

聂卉, 王佳佳

中山大学资讯管理学院广州 510006

聂卉 E-mail:issnh@mail.sysu.edu.cn

基金:*本文系广东省哲学社会科学“十二五”规划2013年度项目“基于情境和用户感知的知识推荐机制研究”(项目编号: CD13CTS01)的研究成果之一。

摘要

【目的】对在线产品评论垃圾识别的研究工作进行梳理, 总结研究现状, 明确发展方向。【文献范围】从CNKI及Google Scholar中以“评论垃圾”、“review/opinion spam” 等为检索词筛选获得国内外近50篇相关文献。【方法】采用文献分析法。界定产品评论垃圾的概念, 明晰评论垃圾所属的研究范畴; 总结产品评论垃圾识别研究中的关键问题及研究进展。【结果】产品评论垃圾指故意过分吹捧或贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。研究中存在虚假评论标注集难获取的问题, 强调评论人行为特征的分析, 提出融合评论人特征来解决评论垃圾识别的研究思路。【局限】应结合产品评论垃圾的识别对用户评论可信度进行更深入的分析。【结论】评论垃圾识别是评论可信性研究的应用体现。辩识评论内容的真伪要充分挖掘评论内容、评论人等多个维度的识别特征。同时, 考虑到众多特征的相互独立性, 应挖掘有显著影响作用的特征因素。

关键词: 评论垃圾; 评论可信度; 评论有用性

中图分类号:TP391 文献标志码: 文章编号:2014-2-63-71

Review of Product Review Spams Detection

Nie Hui, Wang Jiajia

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

Abstract

[Objective] The paper cards existing study about online product review spam, summarizes research status, and puts forward future research direction. [Coverage] Almost 50 papers at home and abroad are searched via review/opinion spam as keywords from CNKI and Google scholar.[Methods] By literature analysis, the concept of product review spam is defined. The research area that review spam study belongs to is specified and key issues and challenges are presented in the paper.[Results] Product review spam refers to the untruthful reviews written for the purpose of inflating or damaging given products excessively or low quality reviews not being able to provide any help to customers. Due to the lack of reliable ground truth label of fake/no-fake review data, the analysis for reviewers’ behavior is highlighted since it can be employed to solve the problem of fake review identification effectively if being combined with the features of review contents.[Limitations] Further study should be conducted on the creditability analysis for product review spam combined with fake review identification.[Conclusions] Product review spam detection is a kind of application studies corresponding to review creditability. Not only the review content specific features but also reviewers corresponding features should be fully explored for fake reviews detection. Moreover, the features with significant impact on fake review identification need to be highlighted specifically with the consideration of independence of feature variables.

Keyword: Review spam; Credibility of review; Helpfulness of review

Show Figures

1 引言

Web2.0的出现使人们由单纯的网络信息接受者转向信息贡献和创造者。截至2013年6月, 至少5.91亿^{[ 1]}网民在创造各种网络信息。尤其是电子商务的发展, 促使在线用户评论数量急剧增长, 成为人们上网购物寻求参考信息的重要渠道。购买商品或消费前, 用户往往会查看相关评论信息, 如果评价积极, 消费者的购买意向可能就大。因而随着网络应用的不断深入, 在线“网络口碑”对商品销量及商家名誉的影响力越来越大。某些组织或个人在各种利益的驱动下开始利用网络信息监管的缺失, 弄虚作假, 制造评论垃圾混淆视听误导用户。清除网络垃圾, 净化网络环境, 为人们提供一个真实可信的信息获取平台的需求日益迫切。

以“评论垃圾”“产品评论”“评论可信度”“评论有用性”及“review spam”“fake review”“review credibi-lity”“review helpfulness”等为主题在CNKI和Google Scholar中检索, 筛选出近50篇中外目标文献。文献显示, 该主题从2007年开始被关注, 国外研究成果较多。

本文综合国内外已有研究成果, 界定“评论垃圾”的概念, 从评论可信度、评论有用性的角度梳理评论垃圾的识别研究, 探讨可信度、有用性与评论垃圾问题的关联, 明确评论垃圾所属的研究范畴。从实践角度, 总结研究中的关键问题和实现方法, 重申评论垃圾识别研究的重要意义, 以期对相关工作的开展和研究提供借鉴。

2 评论垃圾的界定

网页垃圾和邮件垃圾是先于“评论垃圾”的概念。网页垃圾源自搜索引擎优化(Search Engine Optimization, SEO)。其目的是通过提供更多有效信息提高网站质量, 提升网站排名。但有的SEO却在制造垃圾, 以此为网页获得不公正的相关性和重要性^{[ 2, 3]}。垃圾邮件可以认为是一类“不请自来”、匿名、带有商业或宣传目的, 且对收件人形成骚扰的E-mail形式的网络资讯^{[ 4, 5]}。包括网页和邮件在内的资讯垃圾, 从信息价值的角度看, 有违信息的真实有效性, 甚至有恶意特质。现在, 由于电子商务和Web2.0不断深入, 用户生成内容充斥网络世界, 一类新的“垃圾资讯”——“产品评论垃圾”逐渐涌现。据实验数据预测^{[ 6]}, 产品评论垃圾几乎可以占到评论总数的一半, 可见其巨大的干扰力和误导力。

“产品评论垃圾”有明显的恶性商业竞争特质。研究者从4个不同的视角界定概念, 如表1所示:

表1 评论垃圾的界定

其中, 不真实评论指故意吹捧或诋毁的评价, 非商品本身的评论只表达对品牌、商家的观点, 非评论则专指广告、提问等一类非观点型的文本。对产品评论垃圾的界定直接影响识辨的方法, 研究者往往从多个视角综合给出概念。对产品评论垃圾, 笔者认为它是指故意过分吹捧或过分贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。

对于垃圾资讯, 研究集中在对其如何辨识, 这其实是一个文本分类问题, 通过检测有效的识别特征, 区分“垃圾资讯”和“有价值资讯”。但网页、邮件和评论的应用点不同, 导致分类标准及特征选择存在差异。

(1) 检测标准的差异。邮件作为通信工具, 涉及用户极重要的信息, 邮件用户宁愿接收到垃圾, 也不愿遗漏正常邮件。而评论阅读者本身就对是否做出购买存在迟疑, 他们更愿意接受真正具有参考价值并且能够减少决策不定性的评论信息, 而不希望获取不能确定真实性的评论来增加决策的负担。因此, 邮件用户期待垃圾的高判准率, 而评论阅读者期待高判全率。

(2) 特征选取的差异。网页和邮件垃圾直观传递垃圾信息, 不忌讳被用户看穿其垃圾本质, 因而内容上不会有大量掩盖和修饰。网页垃圾检测中多选取词量、词长、锚文本比例等^{[ 16]}浅层文体特征, 较少考虑语义层面。但评论垃圾具有乱真的目的性, 评论内容常被精心掩饰。此时, 浅层的文体特征不足以辨别评论的信用本质, 辨别评论垃圾性的特征的选取更具多元化, 不仅考虑语言层面的特点, 更要深入到评论的语义内容, 甚至需要探讨评论人信用等外部特征因素。

同属垃圾资讯, 网页、邮件和评论有相通之处, 网页和邮件垃圾的识别开展较早, 为评论垃圾识别提供较多可借鉴的成果。但评论垃圾的独特性, 又使其识别研究有别于前两者。

3 评论可信度和效用

可信度源自大众传播领域, 指信息被信任的程度。相应地, 评论可信度被认为是评论人提供的信息被接收者认可的程度。在研究中, 可信度反映可信赖、正确、客观等特质, 由于主要依据主观判断, 因而多采用问卷方式进行测度。可信度研究主要探测与评论可信度关联的影响因素, 如表2所示:

表2 评论可信度影响因素的解释

可信度研究一致认为评论者资信、信息内容质量等对可信度有影响; 但在信息长度、传播者与接收者关系强度的作用上存在不同意见。宫明亮^{[ 22]}发现评论文本越长可信度越高, 而孙春华等^{[ 23]}和丁学君^{[ 24]}的研究却得出信息长度对评论可信度无显著影响。结论的差异与问卷调查对象有关, 宫明亮以所有网购用户为对象, 而孙春华等和丁学君的研究对象仅限于大学生。除了通过问卷调查来分析浅层的文本特征和评论人特征, 最新研究提出了基于文本内容的商品评论可信度测评模型^{[ 26]}, 评论的语义特征得到关注, 评论信息可信度研究进入了更深层次的探索。国外研究较国内研究更细化, 采用分组对照, 发现只有匿名评论的情感倾向才会对可信度产生影响^{[ 27]}; 按照购买和使用之后能否确定产品属性, 将产品分为体验型和信任型, 分析得出体验型产品中情感倾向对可信度无影响^{[ 28]}。另外, “一致性”对可信度的作用在国外得以关注, 评论与评分一致性越高, 评论可信度越高^{[ 29]}; 评论间的一致性越高, 可信度越高^{[ 30, 31, 32]}等。

可见, 影响评论可信度的因素是多重的、复杂的。不同的研究对象、不同的特征组合, 得到的结论可能不一致, 这说明以实际问题为立足点来探索可信度影响的解释模型, 才能进一步明确切实可行的可信度预测模型。同时, 从信息的生成者、信息内容及信息接收者多个层面探讨影响评论可信度的因素, 能够更好地为评论垃圾识别的特征选择提供理论依据。

有用评论是对读者有潜在帮助的评论^{[ 33]}。其效用研究从有用性影响因素和基于效用的推荐排名两方面展开, 一般以有用性投票与总投票数的比值测度效用价值。从评论内容、评论者信誉中提取多个维度的变量解释影响评论效用的主要原因。由于研究对象和方法的差异, 再加上自然语言本身的复杂性, 对评论情感强度、主客观性等因素作用的解释不一致, 如表3所示:

表3 评论有用性影响因素的解释

归结原因, 文献^{[ 37]}以在线评分测度情感且以Amazon^①(http://www.amazon.com/)数据为研究对象, 文献[38]则以被调查者的评分为依据, 并选取国内京东、卓越亚马逊和当当网的数据为研究对象。语言特征及目标基准选择的不同导致结论的差异。对体验型商品——图书的分析认为评论内容包含的主观性因素越强, 效用价值越大^{[ 35]}, 而针对更广泛的研究对象, 则得出个人主观感受负面影响评论效用^{[ 38]}, 这说明了影响因素的作用与研究对象密切相关。

在解释模型的基础上, 深层次研究进一步探索预测模型, 比如预测评论效用价值, 提供基于效用价值的排序推荐^{[ 39]}。由表3注意到, 用户情感对评论效用影响的结论具有不一致性, 这与实际经验相印证。因为效用因人而异, 一条评论给不同的用户做参考时, 用户衡量它的效用所考虑的因素, 会视用户自身需求呈现个性化。笔者认为, 以需求为基础, 针对不同个性化群组研究评论的效用价值会更有意义。从排序推荐的个性化信息服务思想出发, 将效用推荐由粗粒度层面延伸至细粒度层面, 结合不同用户群体的偏好, 差异化预测效用排序。比如, 根据各评论的被关注特征将评论聚为不同簇, 不同的聚类代表拥有不同需求的用户群, 以各用户群重点关注的特征作为量化指标, 实现细粒度效用推荐^{[ 40]}。

分析看出, 评论有用性和评论可信度是两个相近的研究, 二者均考量评论质量, 既相交叠又各具特点。评论可信度强调的是评论真伪性的辨别, 而有用性研究则关注评论的效用价值。应该说, 可信度的工作应在有用性之前, 因为只有真实可信的东西才有研究其效用的必要。而评论垃圾的识别, 应基于评论的可信度分析。结合二者的研究思路是, 通过可信度分析识别并剔除评论垃圾, 提取真实评论再评估效用, 依据预测的效用价值对评论排名, 或者完成个性化评论推荐。但目前, 国内众多研究中, 有用性与可信度研究的区分尚没有足够清晰, 尤其在辨识特征的确立上存在多项交叉, 因此, 评论垃圾辨识特征及评论效用特征的研究都需要更多的探讨, 以选择和发掘具有更高辨识度的特征属性。

4 评论垃圾的识别研究

评论垃圾辨识可视为一种典型的分类任务, 分三部分: 明确评论语料; 选择表征评论的特征; 分类测试及评估。

4.1 研究对象

识别评论垃圾是可信度研究的直接目标, 通过对可信度的评估, 辨识虚假评论。最早开展相关研究的是Jindal等^{[ 13]}, 以Amazon上的评论数据为对象, 涉及多种产品, 并在可共享的语料库上进行实验。共享数据集源自Amazon的原始评论, 抽取了评论相关的8个属性, 包括产品ID(Product ID)、评论者ID(Reviewer ID)、评价星级(Rating)、评价时间(Date)、评论标题(Review Title)、评论的文本内容(Review Body)、有用响应值(Number of Helpful Feedbacks)、响应数(Number of Feedbacks)等信息。除了电子商务网站中的评论信息, 国外亦有部分研究的实验数据源自专业的第三方点评网, 特别是针对餐饮和酒店的服务评价。例如, Ott等^{[ 12]}采集TripAdvisor^①(http://www.tripadvisor.com/)上最受欢迎的前20家旅馆评论, 从文本分类、心理学、流派识别三个角度分析评论的垃圾性特征, 建立多种分类器并对比分类的性能进行评估。Mukherjee等^{[ 41]}利用Yelp^②(http://www.yelp.com/)上的餐馆点评数据对该网站自身的垃圾过滤系统进行分析, 期望可以发现一些有益规则为垃圾识别工作所用。国内研究的数据对象集中在图书及数码产品, 服务行业的评价未涉及。各研究分别使用自己临时获取的数据, 尚未形成可共享的数据资源, 如表4所示:

表4 国内外评论垃圾研究领域对比

4.2 特征选择

识别评论垃圾的关键是提取表征评论的特征。特别是采用机器学习方法, 对特征选择需进行深入研究, 如表5所示:

表5 评论垃圾识别的特征选择和识别方法

目前, 识别评论垃圾的特征选取主要从评论内容和评论人两个方面考虑。评论内容特征反映评论质量和可信度。从内容和文体的角度分析, 许多研究采用了词性(POS)以及n元文法(n-gram)。一元文法(Unigrams)和二元文法(Bigrams)较常用, 结合基于LIWC的特征, 查准率可达近90%^{[ 12]} 。LIWC反映与心理学相关的一组语言特征, 在识别欺骗型评论的任务中发挥了效用。对于评论的主观特征, 情感分析被引入, 经验表明, 如果评论的主观表现过于吹捧或者蓄意诋毁, 则极可能是垃圾, 情感分析探测评论内容的主客观度和褒贬性, 利用情感词汇的极性进行测度, 但文献[11]的研究结论表明情感因素对辨识欺骗型评论的作用并不显著, 因为欺骗型评论的识别是真伪的辨别, 如果刻意虚构评论, 则并不容易从单纯的情感词中辨识区分标准。研究指出, 仅从评论内容中提取识别虚假性评论的特征, 辨识效果往往并不十分理想。评论人特征因而被关注。因为评论人特征反映评论撰写者的个人信誉和行为, 通过探测评论人特征, 特别其行为表现可以非常准确地预测其发表评论的真伪。评论人的行为特征可表现为其发文量, 发表内容的雷同度, 发表时间以及其评价与大众评价值的偏差等一系列特征因素。文献[41]面向Yelp中的真实数据, 特别比较了基于内容特征和基于评论人特征的虚假性评论垃圾的识别效果, 发现基于评论人特征的识别效果更优。而文献[11]也指出对虚假性评论的辨别, 评论人的行为特征是评论语言特征的重要补充。通过分析评论人的行为判断其是否为评论垃圾的制造者, 间接识别其发表评论的价值。相关研究^{[ 11, 14, 15]}探讨的评论人特征经检验^{[ 10]}都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据。

笔者也认为单纯采用内容或行为特征构建的评论垃圾识别模型会导致辨别信息的丢失和遗漏, 将两方面特征融合可获得更优效果。而另一方面, 对分类问题, 往往分类特征越全面, 整体效果越好。但众多特征间存在约束, 可能导致以特征相互独立为前提的分类器的效率降低。所以, 特征并非越多越好, 应增加显著性检验^{[ 10]}, 筛选出贡献较大且不相互依赖的表征特征, 从而提升模型的稳定性和效率。

4.3 识别方法

识别评论垃圾的主流方法之一是利用可指导的机器学习方案^{[ 11, 12, 13, 15]}。但对于机器学习方法, 识别的准确率往往取决于用于构建分类器的标注集。然而, 对虚假评论, 人工给出的标注结果带有较大随机性, 很难通过人工阅读来准确判断评论的真实性, 因而研究中最困难的是获取标准的针对虚假评论的标注集。大部分研究工作采用了近似方案来标注虚假评论。如文献[13]取雷同或近似雷同的评论作为虚假评论, 文献[16]采用人工标注, 文献[12]则利用了AMT(Amazon Mechanical Turk)生成虚假评论, 并结合人工标注生成训练集。尽管采取了一系列的处理和选择的方法, 但标注的数据集都存在可靠性问题。如, 文献[12]的研究在AMT模拟的虚假评论数据集上有很好的表现, 但在真实的商业数据集 (Yelp的评论数据)中, 识别效果却并不理想^{[ 41]}。因为AMT虚构的评论垃圾并不能探测出评论垃圾发布人的真实目的, 无法模拟出其真实的心理状态。可见, 如果标注集的真实性不能得到保证, 那么评论垃圾辨识就失去了参照和基准, 结果便不具备信服力。有指导的分类方法在评论垃圾识别上有一定局限, 要想在传统机器学习分类器上有所突破, 高质量的标注集的获取至关重要。

鉴于标注集的问题, 最近的一组研究尝试采用非指导的学习方案, 进行评论垃圾识别。文献[45-47]采用了频繁项目挖掘实现评论垃圾识别, 频繁项目挖掘在检测个体评论垃圾发布人和评论垃圾发布人群体^①中得以较好应用, 识别过程的关键在于频繁规则筛选标准的定义。文献[44]则采用了聚类算法, 通过分析评论人的行为特征, 探测评论垃圾发布人和非评论垃圾发布人分布上的差异, 辨识评论垃圾的撰写者, 识别评论垃圾。研究评论人行为及信誉来识别评论垃圾的方向还包括图论^{[ 7]}、分布规律^{[ 48, 49, 50]}等, 较为新颖, 有待进一步探讨。可见, 为了回避人工标注训练数据集会导致的判断偏差, 很多研究以评论人为突破口。通过分析评论人的行为表现, 迂回地选取评论内容之外的信息特征, 来间接判断评论垃圾。相比于直接挖掘评论内容特征的判定方式, 这类方法更能保证判别的效率和稳定性。但这类方法的评判依据毕竟是评论内容之外的间接特征, 是否能够充分地反映信息内容本身的可信度, 值得深入研究, 因而其信服力和准确性仍有待进一步提高。

5 结语

开放的网络环境资源丰富, 但缺乏监管的现状使网络资讯良莠混杂, 难以被有效利用。真实可信的网络评论能够为用户提供有价值参考, 引导整个行业或产品的改进, 向更符合用户需求的健康方向发展, 但虚假无效的评论垃圾则会误导消费者, 带来更严重的负面效应。辨识资讯真伪, 提高信息质量, 使网络资源可利用价值最大化, 评论垃圾识别是一个值得关注的具有社会和应用价值的热点问题。

本文从实践研究角度对该领域研究进行了较系统的分析和梳理, 分别从概念辨识、研究范畴、方法以及关键技术等方面对相关研究进行了总结和评述, 得出如下结论:

(1) 概念上, 笔者界定“评论垃圾”指故意过分吹捧或过分贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。本质上不同于“邮件垃圾”和“网页垃圾”。

(2) 研究范畴上, 国内研究中, 对评论可信度与评论有用性的区分不甚明晰。笔者认为评论垃圾识别是评论可信性研究的应用体现。可信性研究关注信息真伪的辨别, 而信息效用价值的研究则是可信性研究的后继。

(3) 研究方法上, 辨别评论垃圾的关键是提取表征评论垃圾性的特征。评论内容和评论人特征同样重要, 融合两方面特征的识别模型具有更优的效果。

(4) 实现技术上, 由于存在标注偏差, 面向评论内容, 基于机器学习的分类方法存在一定局限。基于评论人及其他外部特征的解决方案有新意和潜力, 但需要深入探索。

参考文献

View Option

[1]	中国互联网信息中心. 第32次中国互联网络发展状况统计报告[R/OL]. [2013-09-30]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t20130717_40664.htm. (China Inte-rnet Network Information Center. The 32nd Statistic Report of China Internet Development State[R/OL]. [2013-09-30]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t20130717_40664.htm [本文引用:1]
[2]	蒋涛, 张彬. Web Spam技术研究综述[J]. 情报探索, 2007(7): 66-68. (Jiang Tao, Zhang Bin. A Survey of Web Spam Technologies[J]. Information Research, 2007(7): 66-68. ) [本文引用:1]
[3]	贾志洋, 崔博文, 王勇刚, 等. 搜索引擎垃圾网页技术分析[J]. 情报探索, 2011(7): 94-96. (Jia Zhiyang, Cui Bowen, Wang Yonggang, et al. Analyzing Technology of Search Engine Spam Web Pages[J]. Information Research, 2011(7): 94-96. ) [本文引用:1]
[4]	王斌, 潘文锋. 基于内容的垃圾邮件过滤技术综述[J]. 中文信息学报, 2004, 19(5): 1-10. (Wang Bin, Pan Wenfeng. A Survey of Content-based Anti-spam Email Filtering[J]. Journal of Chinese Information Processing, 2004, 19(5): 1-10. ) [本文引用:1] [CJCR: 1.13]
[5]	何建昭, 梁晓诚, 郭红宾. 基于行为模式识别的反垃圾邮件技术[J]. 电脑知识与技术, 2007, 1(4): 957-958. (He Jianzhao, Liang Xiaocheng, Guo Hongbin. Anti-spam Technology Based on Discriminating Action Pattern[J]. Computer Knowledge and Technology, 2007, 1(4): 957-958. ) [本文引用:1] [CJCR: 0.068]
[6]	李霄, 丁晟春. 垃圾商品评论信息的识别研究[J]. 现代图书情报技术, 2013(1): 63-68. (Li Xiao, Ding Shengchun. Research on Review Spam Recognition[J]. New Technology of Library and Information Service, 2013(1): 63-68. ) [本文引用:1] [CJCR: 1.073]
[7]	Wang G, Xie S H, Liu B, et al. Review Graph Based Online Store Review Spammer Detection [C]. In: Proceedings of the 11th International Conference on Data Mining. Washington, DC, USA: IEEE Computer Society, 2011: 1242-1247. [本文引用:1]
[8]	邱云飞, 王建坤, 邵良杉, 等. 基于用户行为的产品垃圾评论者检测研究[J]. 计算机工程, 2012, 38(11): 254-257, 261. (Qiu Yunfei, Wang Jiankun, Shao Liangshan, et al. Research on Product Review Spammer Detection Based on Users’ Behavior[J]. Computer Engineering, 2012, 38(11): 254-257, 261. ) [本文引用:1]
[9]	孙升芸, 田萱, 何军. 基于评论行为的商品垃圾评论的识别研究[J]. 计算机工程与设计, 2012, 33(11): 4315-4319. (Sun Shengyun, Tian Xuan, He Jun. Research on Product Review Spam Detection Based on Review Behavior[J]. Computer Engineering and Design, 2012, 33(11): 4315-4319. ) [本文引用:1] [CJCR: 0.789]
[10]	吴敏, 何珑. 融合多特征的产品垃圾评论识别[J]. 微型机与应用, 2012, 31(22): 85-87, 90. (Wu Min, He Long. Fuse Multi-features to Identify Product Review Spam[J]. Microcomputer & Its Applications, 2012, 31(22): 85-87, 90. ) [本文引用:2]
[11]	Li F T, Huang M, Yang Y, et al. Learning to Identify Review Spam [C]. In: Proceedings of the 22nd International Joint Conference on Artificial Intelligence. AAAI Press, 2011: 2488-2493. [本文引用:2]
[12]	Ott M, Choi Y J, Cardie C, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination [C]. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2011: 309-319. [本文引用:3]
[13]	Jindal N, Liu B. Review Spam Detection [C]. In: Proceedings of the 16th International Conference on World Wide Web. New York, NY, USA: ACM, 2007: 1189-1190. [本文引用:2]
[14]	Jindal N, Liu B. Analyzing and Detecting Review Spam [C]. In: Proceedings of the 7th International Conference on Data Mining. Washington, DC, USA: IEEE Computer Society, 2007: 547-552. [本文引用:1]
[15]	Jindal N, Liu B. Opinion Spam and Analysis[C]. In: Proceedings of the 2008 International Conference on Web Search and Data Mining. New York, NY, USA: ACM, 2008: 219-230. [本文引用:2]
[16]	于兵兵. Web Spam检测及网页排序算法的研究[D]. 西安: 西安电子科技大学, 2012. (Yu Bingbing. Research on Web Spam Detection and Web Page Sorting[D]. Xi’an: Xidian University, 2012. ) [本文引用:1]
[17]	铁翠香. 基于信任和感知价值的网络口碑效应研究[D]. 武汉: 华中科技大学, 2011. (Tie Cuixiang. Study on the eWOM Impact: A Mediating Role of Trust and Consumer Perceived Value[D]. Wuhan: Huazhong University of Science and Technology, 2011. ) [本文引用:1]
[18]	李念武, 岳蓉. 网络口碑可信度及其对购买行为之影响的实证研究[J]. 图书情报工作, 2009, 53(22): 123-137. (Li Nianwu, Yue Rong. An Empirical Study on Credibility of Online Word-of-Mouth and Its Effects on Consumers’ Purchase Behavior[J]. Library and Information Service, 2009, 53(22): 123-137. ) [本文引用:1] [CJCR: 1.193]
[19]	凌昌梅. 网络口碑可信度影响因素的实证研究[D]. 北京: 北京邮电大学, 2012. (Ling Changmei. An Empirical Analysis of Factors Influencing the Credibility of Online Word-of-Mouth[D]. Beijing: Beijing University of Posts and Telecommunications, 2012. ) [本文引用:1]
[20]	艾青. 中国网络口碑可信度的影响因素探索研究[D]. 成都: 西南财经大学, 2008. (Ai Qing. The Exploratory Research of Influence Factor for the Credibility of Online Word-of-Mouth[D]. Chengdu: Southwestern University of Finance and Economics, 2008. ) [本文引用:1]
[21]	郭国庆, 陈凯, 何飞. 消费者在线评论可信度的影响因素研究[J]. 当代经济管理, 2010, 32(10): 17-23. (Guo Guoqing, Chen Kai, He Fei. An Empirical Study on the Influence of Perceived Credibility of Online Consumer Reviews[J]. Contemporary Economy & Management, 2010, 32(10): 17-23. ) [本文引用:1] [CJCR: 0.535]
[22]	宫明亮. 网络口碑传播信任度影响因素研究[D]. 上海: 东华大学, 2011. (Gong Mingliang. The Research on Internet Word of Mouth Dissemination Credibility[D]. Shanghai: Donghua University, 2011. ) [本文引用:1]
[23]	孙春华, 刘业政. 网络口碑信息可信度的实验研究[J]. 财经论丛, 2009(4): 97-102. (Sun Chunhua, Liu Yezheng. An Experimental Study on Message Credibility of eWOM[J]. Collected Essays on Finance and Economics, 2009(4): 97-102. ) [本文引用:1] [CJCR: 0.94]
[24]	丁学君. 网络环境下口碑信息可信度影响因素的实证研究[J]. 中国经贸导刊, 2012(29): 75-77. (Ding Xuejun. Empirical Study on Influence Factors of Word of Mouth in Internet Environment[J]. China Economic & Trade Herald, 2012(29): 75-77. ) [本文引用:1]
[25]	咸晓静. 基于TAM的网络口碑信任度研究[D]. 上海: 上海交通大学, 2010. (Xian Xiaojing. A Research on the Trust of Electronic Word of Mouth Based on TAM[D]. Shanghai: Shanghai Jiaotong University, 2010. ) [本文引用:1]
[26]	刘逶迤, 逯万辉, 丁晟春. 商品评论信息可信度研究[J]. 情报科学, 2012, 30(10): 1556-1565. (Liu Weiyi, Lu Wanhui, Ding Shengchun. Research on the Credibility of Commodity Reviews Information[J]. Information Science, 2012, 30(10): 1556-1565. ) [本文引用:1] [CJCR: 1.112]
[27]	Kusumasondjaja S, Shanka T, Marchegiani C. Credibility of Online Reviews and Initial Trust: The Roles of Reviewer’s Identity and Review Valence[J]. Journal of Vacation Marketing, 2012, 18(3): 185-195. [本文引用:1]
[28]	Pan L Y, Chiou J S. How Much Can You Trust Online Information? Cues for Perceived Trustworthiness of Consumer-generated Online Information[J]. Journal of Interactive Marketing, 2011, 25(2): 67-74. [本文引用:1]
[29]	Qiu L Y, Pang J, Lim K H. Effects of Conﬂicting Aggregated Rating on eWOM Review Credibility and Diagnosticity: The Moderating Role of Review Valence[J]. Decision Support Systems, 2012, 54(1): 631-643. [本文引用:1] [JCR: 2.201]
[30]	Cheung M Y, Luo C, Sia C L, et al. How do People Evaluate Electronic Word-of-Mouth? Informational and Normative Based Determinants of Perceived Credibility of Online Consumer Recommendations in China[C]. In: Proceedings of the 11th Pacific Asia Conference on Information Systems. 2007: 69-73. [本文引用:1]
[31]	Cheung M Y. Do People Believe Electronic Word-of-Mouth?: A Study on Factors Affecting Readers’ Perceived Credibility of Online Consumer Reviews[D]. Hongkong: City University of Hong Kong, 2006. [本文引用:1]
[32]	Cheung M Y, Cindy M Y, Sia C L, et al. Is This Review Believable? A Study of Factors Affecting the Credibility of Online Consumer Reviews from an ELM Perspective[J]. Journal of the Association for Information Systems, 2012, 13(8): 618-635. [本文引用:1] [JCR: 1.048]
[33]	Lim E P, Nguyen V A, Jindal N, et al. Detecting Product Review Spammers Using Rating Behaviors [C]. In: Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010: 939-948. [本文引用:1]
[34]	Danescu-Niculescu-Mizil C, Kossinets G, Kleinberg J, et al. How Opinions are Received by Online Communities: A Case Study on Amazon. com Helpfulness Votes[C]. In: Proceedings of the 18th International Conference on World Wide Web. New York, NY, USA: ACM, 2009: 141-150. [本文引用:1]
[35]	薛博召. 图书领域消费者在线评论的有用性影响因素研究[D]. 哈尔滨: 哈尔滨工业大学, 2011. (Xue Bozhao. Research on Online Impact Factors of Customer Reviews Usefulness Based on Book Reviews Data[D]. Harbin: Harbin Institute of Technology, 2011. ) [本文引用:1] [CJCR: 0.3432]
[36]	廖成林, 蔡春江, 李忆. 电子商务中在线评论有用性影响因素实证研究[J]. 软科学, 2013, 27(5): 46-50. (Liao Chenglin, Cai Chunjiang, Li Yi. An Empirical Study on Influence Factors of Online Reviews’ Helpfulness in E-commerce[J]. Soft Science, 2013, 27(5): 46-50. ) [本文引用:1] [CJCR: 0.8047]
[37]	Mudambi S M, Schuff D. What Makes a Helpful Online Review? A Study of Customer Reviews on Amazon. com[J]. MIS Quarterly, 2010, 34(1): 185-200. [本文引用:1]
[38]	严建援, 张丽, 张蕾. 电子商务中在线评论内容对评论有用性影响的实证研究[J]. 情报科学, 2012, 30(5): 713-719. (Yan Jianyuan, Zhang Li, Zhang Lei. An Empirical Study of the Impact of Review Content on Online Reviews Helpfulness in E-commerce[J]. Information Science, 2012, 30(5): 713-719. ) [本文引用:1] [CJCR: 1.112]
[39]	郝媛媛, 叶强, 李一军. 基于影评数据的在线评论有用性影响因素研究[J]. 管理科学学报, 2010, 13(8): 78-96. (Hao Yuanyuan, Ye Qiang, Li Yijun. Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data[J]. Journal of Management Sciences in China, 2010, 13(8): 78-96. ) [本文引用:1] [CJCR: 1.411]
[40]	姜巍, 张莉, 戴翼, 等. 面向用户需求获取的在线评论有用性分析[J]. 计算机学报, 2013, 36(1): 119-131. (Jiang Wei, Zhang Li, Dai Yi, et al. Analyzing Helpfulness of Online Reviews for User Requirements Elicitation[J]. Chinese Journal of Computers, 2013, 36(1): 119-131. ) [本文引用:1] [CJCR: 1.796]
[41]	Mukherjee A, Venkataraman V. What Yelp Fake Review Filter Might Be Doing? [C]. In: Proceedings of the 7th International Conference on Weblogs and Social Media. Palo Alto: AAAI Press, 2013: 409-418. [本文引用:2]
[42]	Wu G, Greene D, Smyth B, et al. Distortion as a Validation Criterion in the Identification of Suspicious Reviews[C]. In: Proceedings of the 1st Workshop on Social Media Analytics. New York, NY, USA: ACM, 2010: 10-13. [本文引用:1]
[43]	陆军, 洪宇, 陆剑江, 等. 基于全局用户意图的评论自动估价方法研究[J]. 中文信息学报, 2012, 26(5): 79-87. (Lu Jun, Hong Yu, Lu Jianjiang, et al. Automatic Reviews Quality Evaluation Based on Global User Intent[J]. Journal of Chinese Information Processing, 2012, 26(5): 79-87. ) [本文引用:1] [CJCR: 1.13]
[44]	Mukherjee A, Kumar A, Liu B, et al. Spotting Opinion Spammers Using Behavioral Footprints [C]. In: Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM, 2013: 632-640. [本文引用:1]
[45]	Jindal N, Liu B, Lim E P. Finding Unusual Review Patterns Using Unexpected Rules [C]. In: Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2010: 1549-1552. [本文引用:1]
[46]	Mukherjee A, Liu B, Wang J H, et al. Detecting Group Review Spam[C]. In: Proceedings of the 20th International Conference Companion on World Wide Web. New York, NY, USA: ACM, 2011: 93-94. [本文引用:1]
[47]	Mukherjee A, Liu B, Glance N. Spotting Fake Reviewer Groups in Consumer Reviews [C]. In: Proceedings of the 21st International Conference on World Wide Web. New York, NY, USA: ACM, 2012: 191-200. [本文引用:1]
[48]	Hu N, Zhang J, Pavlou P A. Overcoming the J-shaped Distribution of Product Reviews[J]. Communications of the ACM, 2009, 52(10): 144-147. [本文引用:1] [JCR: 2.511]
[49]	Feng S, Xing L F, Gogar A, et al. Distributional Footprints of Deceptive Product Reviews[C]. In: Proceedings of the 6th International AAAI Conference on Weblogs and Social Media. Palo Alto: AAAI Press, 2013: 98-105. [本文引用:1]
[50]	Fei G, Mukherjee A, Liu B, et al. Exploiting Burstiness in Reviews for Review Spammer Detection [C]. In: Proceedings of the 7th International Conference on Weblogs and Social Media. Palo Alto: AAAI Press, 2013: 175-184. [本文引用:1]

2013

0.0

... 91亿^[1]网民在创造各种网络信息 ...

0.0

... 但有的SEO却在制造垃圾, 以此为网页获得不公正的相关性和重要性^[2,3] ...

0.0

... 但有的SEO却在制造垃圾, 以此为网页获得不公正的相关性和重要性^[2,3] ...

2004

0.0

1.13

... 、匿名、带有商业或宣传目的, 且对收件人形成骚扰的E-mail形式的网络资讯^[4,5] ...

2007

0.0

0.068

... 、匿名、带有商业或宣传目的, 且对收件人形成骚扰的E-mail形式的网络资讯^[4,5] ...

0.0

1.073

. , 2013(1):63-68

Research on Review Spam Recognition

(垃圾商品评论信息的识别研究) [J]. (现代图书情报技术) , 2013 ( 1 ): 63 - 68 . ( Li Xiao , Ding Shengchun . Research on Review Spam Recognition

Li Xiao

(李霄) , (丁晟春) . (垃圾商品评论信息的识别研究) [J]. (现代图书情报技术) , 2013 ( 1 ): 63 - 68 . ( Li Xiao

Department of Information and Management, Nanjing University of Science & Technology, Nanjing 210094, China

This paper analyses review spam from the perspective of the usefulness of information, selects digital camera reviews as the research object and builds the data set, then from the three aspects of review, reviewer and product chooses 11 features, uses 4 different kernel functions in SVM model to identify review spam of products, optimizes the parameters C and γ of RBF that has a better identification, which improves accuracy rate of the identification effect of review spam to 78.16% and recall rate to 72.18%. By comparing the selected 4 different combinations of features, the authors find the combination of review, reviewer and product is the best. Finally, it proves that SVM is significantly better than other algorithms compared to the Logistic Regression.

从信息有用性的角度对垃圾商品评论信息进行分析,选择数码领域的相机评论作为研究对象,构建数据集,从评论、评论者和被评论的商品三个方面选择11个特征,使用支持向量机模型中4种常用的核函数进行垃圾商品评论的识别,对识别效果较好的RBF核函数中的参数C和γ进行优化,使得商品评论中的垃圾评论识别的准确率提高到78.16%,召回率提高到72.18%,并选取4种不同特征组合进行对比,证明评论、评论者和被评论的商品三大特征组合的效果最好,最后通过与Logistic回归模型的对比,验证SVM对垃圾评论的识别效果明显优于其他算法。

... 据实验数据预测^[6], 产品评论垃圾几乎可以占到评论总数的一半, 可见其巨大的干扰力和误导力 ...

2011

0.0

... 研究评论人行为及信誉来识别评论垃圾的方向还包括图论^[7]、分布规律^[48,49,50]等, 较为新颖, 有待进一步探讨 ...

2012

0.0

2012

0.0

0.789

2012

0.0

... 相关研究^[11,14,15]探讨的评论人特征经检验^[10]都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据 ...

... 所以, 特征并非越多越好, 应增加显著性检验^[10], 筛选出贡献较大且不相互依赖的表征特征, 从而提升模型的稳定性和效率 ...

2011

0.0

... 相关研究^[11,14,15]探讨的评论人特征经检验^[10]都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据 ...

... 3 识别方法识别评论垃圾的主流方法之一是利用可指导的机器学习方案^{[11,12,13,15]} ...

2011

0.0

... 例如, Ott等^[12]采集TripAdvisor^①(http://www ...

... 一元文法(Unigrams)和二元文法(Bigrams)较常用, 结合基于LIWC的特征, 查准率可达近90%^[12] ...

... 3 识别方法识别评论垃圾的主流方法之一是利用可指导的机器学习方案^{[11,12,13,15]} ...

2007

0.0

... 最早开展相关研究的是Jindal等^[13], 以Amazon上的评论数据为对象, 涉及多种产品, 并在可共享的语料库上进行实验 ...

... 3 识别方法识别评论垃圾的主流方法之一是利用可指导的机器学习方案^{[11,12,13,15]} ...

2007

0.0

... 相关研究^[11,14,15]探讨的评论人特征经检验^[10]都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据 ...

2008

0.0

... 相关研究^[11,14,15]探讨的评论人特征经检验^[10]都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据 ...

... 3 识别方法识别评论垃圾的主流方法之一是利用可指导的机器学习方案^{[11,12,13,15]} ...

2012

0.0

... 网页垃圾检测中多选取词量、词长、锚文本比例等^[16]浅层文体特征, 较少考虑语义层面 ...

2011

0.0

2009

0.0

1.193

2012

0.0

2008

0.0

2010

0.0

0.535

. 2010, 32(10):17-23

An Empirical Study on the Influence of Perceived Credibility of Online Consumer Reviews

(消费者在线评论可信度的影响因素研究) [J]. (当代经济管理) , 2010 , 32 ( 10 ): 17 - 23 . ( Guo Guoqing , Chen Kai , He Fei . An Empirical Study on the Influence of Perceived Credibility of Online Consumer Reviews

Guo Guoqing

(郭国庆) , (陈凯) , (何飞) . (消费者在线评论可信度的影响因素研究) [J]. (当代经济管理) , 2010 , 32 ( 10 ): 17 - 23 . ( Guo Guoqing

将传播学领域考察媒体可信度的霍夫兰德传播说服模型引入在线评论可信度研究,从信源、信息内容、接收者三个角度,在对现有研究梳理和总结的基础上,结合消费者在线评论的特点加入社会影响因素,提出了在线评论可信度影响因素模型,并以第三方评论网站为例,通过实证研究的方式,系统考察了消费者在线评论的可信度影响因素.同时讨论了该研究的局限性、对于管理实践的启示及未来研究方向.

2011

0.0

... 宫明亮^[22]发现评论文本越长可信度越高, 而孙春华等^[23]和丁学君^[24]的研究却得出信息长度对评论可信度无显著影响 ...

0.0

0.94

... 宫明亮^[22]发现评论文本越长可信度越高, 而孙春华等^[23]和丁学君^[24]的研究却得出信息长度对评论可信度无显著影响 ...

0.0

... 宫明亮^[22]发现评论文本越长可信度越高, 而孙春华等^[23]和丁学君^[24]的研究却得出信息长度对评论可信度无显著影响 ...

2010

0.0

2012

0.0

1.112

... 除了通过问卷调查来分析浅层的文本特征和评论人特征, 最新研究提出了基于文本内容的商品评论可信度测评模型^[26], 评论的语义特征得到关注, 评论信息可信度研究进入了更深层次的探索 ...

2012

0.0

... 国外研究较国内研究更细化, 采用分组对照, 发现只有匿名评论的情感倾向才会对可信度产生影响^[27] ...

2011

0.0

. 2011, 25(2):67-74 DOI:10.1016/j.intmar.2011.01.002

How Much Can You Trust Online Information? Cues for Perceived Trustworthiness of Consumer-generated Online Information

Abstract

Consumers increasingly rely on the Internet to obtain product information and advice from other consumers. However, since the information available on the Internet is easily manipulated, they have to seek cues for the trustworthiness of the online information. The present study proposes and tests the effects on perceived trust of online information and subsequent attitude of (1) perceived strong vs. weak social relationships among net pals and (2) positive vs. negative messages. The moderating effects of credence vs. experience goods are also examined in the research. Results show that, for experience goods, either positive or negative online messages will be perceived as credible as long as the messages are posted by those perceived to have close social relationships. On the other hand, for credence goods, negative online messages are perceived to be more credible than positive online messages when the messages are posted by those perceived to have close social relationships. Results also show the main effect of positive/negative messages on credibility of information, as well as that the effect of credibility of information on product attitude is weaker in the credence goods group than in the experience goods group.

Research Highlights

? We examine cues for the online information trustworthiness by two product categories. ? Perceived social relationships among net pals and message statements are examined. ? Perceived strong social relationship increase online information trustworthiness. ? Message effect on information trust and product attitude is weaker in credence goods.

... 按照购买和使用之后能否确定产品属性, 将产品分为体验型和信任型, 分析得出体验型产品中情感倾向对可信度无影响^[28] ...

2012

2.201

0.0

... 对可信度的作用在国外得以关注, 评论与评分一致性越高, 评论可信度越高^[29] ...

2007

0.0

... 评论间的一致性越高, 可信度越高^[30,31,32]等 ...

2006

0.0

... 评论间的一致性越高, 可信度越高^[30,31,32]等 ...

2012

1.048

0.0

... 评论间的一致性越高, 可信度越高^[30,31,32]等 ...

2010

0.0

... 有用评论是对读者有潜在帮助的评论^[33] ...

2009

0.0

2011

0.0

0.3432

... 图书的分析认为评论内容包含的主观性因素越强, 效用价值越大^[35], 而针对更广泛的研究对象, 则得出个人主观感受负面影响评论效用^[38], 这说明了影响因素的作用与研究对象密切相关 ...

2013

0.0

0.8047

2010

0.0

2012

0.0

1.112

2010

0.0

1.411

. 2010, 13(8):78-96

Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data

(基于影评数据的在线评论有用性影响因素研究) [J]. (管理科学学报) , 2010 , 13 ( 8 ): 78 - 96 . ( Hao Yuanyuan , Ye Qiang , Li Yijun . Research on Online Impact Factors of Customer Reviews Usefulness Based on Movie Reviews Data

Hao Yuanyuan

(郝媛媛) , (叶强) , (李一军) . (基于影评数据的在线评论有用性影响因素研究) [J]. (管理科学学报) , 2010 , 13 ( 8 ): 78 - 96 . ( Hao Yuanyuan

面对互联网上海量的在线客户评论,如何能快速有效地进行识别和选择从而发现和利用其中有用的评论,已经成为人们关注的重要问题.以体验型商品电影的在线评论为研究对象,结合文本挖掘技术和实证研究方法,从文本特征出发探索影响在线评论有用性的因素,建立在线评论有用性影响因素模型,并利用该模型对评论有用性进行分类预测.与现有相关研究相比,提出的模型总体拟合效果显著提高,并发现在线影评中积极的情感倾向、较高的正负情感混杂度、较高的主客观表达混杂度以及较长的平均各句长度,对评论的有用性具有显著的正面影响.最后预测结果表明,该模型对在线影评的有用性具有较强的判别能力.

... 在解释模型的基础上, 深层次研究进一步探索预测模型, 比如预测评论效用价值, 提供基于效用价值的排序推荐^[39] ...

2013

0.0

1.796

... 比如, 根据各评论的被关注特征将评论聚为不同簇, 不同的聚类代表拥有不同需求的用户群, 以各用户群重点关注的特征作为量化指标, 实现细粒度效用推荐^[40] ...

2013

0.0

... Mukherjee等^[41]利用Yelp^②(http://www ...

... 如, 文献[12]的研究在AMT模拟的虚假评论数据集上有很好的表现, 但在真实的商业数据集 (Yelp的评论数据)中, 识别效果却并不理想^[41] ...

2010

0.0

2012

0.0

1.13

2013

0.0

2010

0.0

2011

0.0

2012

0.0

2009

2.511

0.0

... 研究评论人行为及信誉来识别评论垃圾的方向还包括图论^[7]、分布规律^[48,49,50]等, 较为新颖, 有待进一步探讨 ...

2013

0.0

... 研究评论人行为及信誉来识别评论垃圾的方向还包括图论^[7]、分布规律^[48,49,50]等, 较为新颖, 有待进一步探讨 ...

2013

0.0

... 研究评论人行为及信誉来识别评论垃圾的方向还包括图论^[7]、分布规律^[48,49,50]等, 较为新颖, 有待进一步探讨 ...