Web2.0的出现使人们由单纯的网络信息接受者转向信息贡献和创造者。截至2013年6月, 至少5.91亿[ 1]网民在创造各种网络信息。尤其是电子商务的发展, 促使在线用户评论数量急剧增长, 成为人们上网购物寻求参考信息的重要渠道。购买商品或消费前, 用户往往会查看相关评论信息, 如果评价积极, 消费者的购买意向可能就大。因而随着网络应用的不断深入, 在线“网络口碑”对商品销量及商家名誉的影响力越来越大。某些组织或个人在各种利益的驱动下开始利用网络信息监管的缺失, 弄虚作假, 制造评论垃圾混淆视听误导用户。清除网络垃圾, 净化网络环境, 为人们提供一个真实可信的信息获取平台的需求日益迫切。
以“评论垃圾”“产品评论”“评论可信度”“评论有用性”及“review spam”“fake review”“review credibi-lity”“review helpfulness”等为主题在CNKI和Google Scholar中检索, 筛选出近50篇中外目标文献。文献显示, 该主题从2007年开始被关注, 国外研究成果较多。
本文综合国内外已有研究成果, 界定“评论垃圾”的概念, 从评论可信度、评论有用性的角度梳理评论垃圾的识别研究, 探讨可信度、有用性与评论垃圾问题的关联, 明确评论垃圾所属的研究范畴。从实践角度, 总结研究中的关键问题和实现方法, 重申评论垃圾识别研究的重要意义, 以期对相关工作的开展和研究提供借鉴。
网页垃圾和邮件垃圾是先于“评论垃圾”的概念。网页垃圾源自搜索引擎优化(Search Engine Optimization, SEO)。其目的是通过提供更多有效信息提高网站质量, 提升网站排名。但有的SEO却在制造垃圾, 以此为网页获得不公正的相关性和重要性[ 2, 3]。垃圾邮件可以认为是一类“不请自来”、匿名、带有商业或宣传目的, 且对收件人形成骚扰的E-mail形式的网络资讯[ 4, 5]。包括网页和邮件在内的资讯垃圾, 从信息价值的角度看, 有违信息的真实有效性, 甚至有恶意特质。现在, 由于电子商务和Web2.0不断深入, 用户生成内容充斥网络世界, 一类新的“垃圾资讯”——“产品评论垃圾”逐渐涌现。据实验数据预测[ 6], 产品评论垃圾几乎可以占到评论总数的一半, 可见其巨大的干扰力和误导力。
“产品评论垃圾”有明显的恶性商业竞争特质。研究者从4个不同的视角界定概念, 如表1所示:
其中, 不真实评论指故意吹捧或诋毁的评价, 非商品本身的评论只表达对品牌、商家的观点, 非评论则专指广告、提问等一类非观点型的文本。对产品评论垃圾的界定直接影响识辨的方法, 研究者往往从多个视角综合给出概念。对产品评论垃圾, 笔者认为它是指故意过分吹捧或过分贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。
对于垃圾资讯, 研究集中在对其如何辨识, 这其实是一个文本分类问题, 通过检测有效的识别特征, 区分“垃圾资讯”和“有价值资讯”。但网页、邮件和评论的应用点不同, 导致分类标准及特征选择存在差异。
(1) 检测标准的差异。邮件作为通信工具, 涉及用户极重要的信息, 邮件用户宁愿接收到垃圾, 也不愿遗漏正常邮件。而评论阅读者本身就对是否做出购买存在迟疑, 他们更愿意接受真正具有参考价值并且能够减少决策不定性的评论信息, 而不希望获取不能确定真实性的评论来增加决策的负担。因此, 邮件用户期待垃圾的高判准率, 而评论阅读者期待高判全率。
(2) 特征选取的差异。网页和邮件垃圾直观传递垃圾信息, 不忌讳被用户看穿其垃圾本质, 因而内容上不会有大量掩盖和修饰。网页垃圾检测中多选取词量、词长、锚文本比例等[ 16]浅层文体特征, 较少考虑语义层面。但评论垃圾具有乱真的目的性, 评论内容常被精心掩饰。此时, 浅层的文体特征不足以辨别评论的信用本质, 辨别评论垃圾性的特征的选取更具多元化, 不仅考虑语言层面的特点, 更要深入到评论的语义内容, 甚至需要探讨评论人信用等外部特征因素。
同属垃圾资讯, 网页、邮件和评论有相通之处, 网页和邮件垃圾的识别开展较早, 为评论垃圾识别提供较多可借鉴的成果。但评论垃圾的独特性, 又使其识别研究有别于前两者。
可信度源自大众传播领域, 指信息被信任的程度。相应地, 评论可信度被认为是评论人提供的信息被接收者认可的程度。在研究中, 可信度反映可信赖、正确、客观等特质, 由于主要依据主观判断, 因而多采用问卷方式进行测度。可信度研究主要探测与评论可信度关联的影响因素, 如表2所示:
可信度研究一致认为评论者资信、信息内容质量等对可信度有影响; 但在信息长度、传播者与接收者关系强度的作用上存在不同意见。宫明亮[ 22]发现评论文本越长可信度越高, 而孙春华等[ 23]和丁学君[ 24]的研究却得出信息长度对评论可信度无显著影响。结论的差异与问卷调查对象有关, 宫明亮以所有网购用户为对象, 而孙春华等和丁学君的研究对象仅限于大学生。除了通过问卷调查来分析浅层的文本特征和评论人特征, 最新研究提出了基于文本内容的商品评论可信度测评模型[ 26], 评论的语义特征得到关注, 评论信息可信度研究进入了更深层次的探索。国外研究较国内研究更细化, 采用分组对照, 发现只有匿名评论的情感倾向才会对可信度产生影响[ 27]; 按照购买和使用之后能否确定产品属性, 将产品分为体验型和信任型, 分析得出体验型产品中情感倾向对可信度无影响[ 28]。另外, “一致性”对可信度的作用在国外得以关注, 评论与评分一致性越高, 评论可信度越高[ 29]; 评论间的一致性越高, 可信度越高[ 30, 31, 32]等。
可见, 影响评论可信度的因素是多重的、复杂的。不同的研究对象、不同的特征组合, 得到的结论可能不一致, 这说明以实际问题为立足点来探索可信度影响的解释模型, 才能进一步明确切实可行的可信度预测模型。同时, 从信息的生成者、信息内容及信息接收者多个层面探讨影响评论可信度的因素, 能够更好地为评论垃圾识别的特征选择提供理论依据。
有用评论是对读者有潜在帮助的评论[ 33]。其效用研究从有用性影响因素和基于效用的推荐排名两方面展开, 一般以有用性投票与总投票数的比值测度效用价值。从评论内容、评论者信誉中提取多个维度的变量解释影响评论效用的主要原因。由于研究对象和方法的差异, 再加上自然语言本身的复杂性, 对评论情感强度、主客观性等因素作用的解释不一致, 如表3所示:
归结原因, 文献[ 37]以在线评分测度情感且以Amazon①(
在解释模型的基础上, 深层次研究进一步探索预测模型, 比如预测评论效用价值, 提供基于效用价值的排序推荐[ 39]。由表3注意到, 用户情感对评论效用影响的结论具有不一致性, 这与实际经验相印证。因为效用因人而异, 一条评论给不同的用户做参考时, 用户衡量它的效用所考虑的因素, 会视用户自身需求呈现个性化。笔者认为, 以需求为基础, 针对不同个性化群组研究评论的效用价值会更有意义。从排序推荐的个性化信息服务思想出发, 将效用推荐由粗粒度层面延伸至细粒度层面, 结合不同用户群体的偏好, 差异化预测效用排序。比如, 根据各评论的被关注特征将评论聚为不同簇, 不同的聚类代表拥有不同需求的用户群, 以各用户群重点关注的特征作为量化指标, 实现细粒度效用推荐[ 40]。
分析看出, 评论有用性和评论可信度是两个相近的研究, 二者均考量评论质量, 既相交叠又各具特点。评论可信度强调的是评论真伪性的辨别, 而有用性研究则关注评论的效用价值。应该说, 可信度的工作应在有用性之前, 因为只有真实可信的东西才有研究其效用的必要。而评论垃圾的识别, 应基于评论的可信度分析。结合二者的研究思路是, 通过可信度分析识别并剔除评论垃圾, 提取真实评论再评估效用, 依据预测的效用价值对评论排名, 或者完成个性化评论推荐。但目前, 国内众多研究中, 有用性与可信度研究的区分尚没有足够清晰, 尤其在辨识特征的确立上存在多项交叉, 因此, 评论垃圾辨识特征及评论效用特征的研究都需要更多的探讨, 以选择和发掘具有更高辨识度的特征属性。
评论垃圾辨识可视为一种典型的分类任务, 分三部分: 明确评论语料; 选择表征评论的特征; 分类测试及评估。
识别评论垃圾是可信度研究的直接目标, 通过对可信度的评估, 辨识虚假评论。最早开展相关研究的是Jindal等[ 13], 以Amazon上的评论数据为对象, 涉及多种产品, 并在可共享的语料库上进行实验。共享数据集源自Amazon的原始评论, 抽取了评论相关的8个属性, 包括产品ID(Product ID)、评论者ID(Reviewer ID)、评价星级(Rating)、评价时间(Date)、评论标题(Review Title)、评论的文本内容(Review Body)、有用响应值(Number of Helpful Feedbacks)、响应数(Number of Feedbacks)等信息。除了电子商务网站中的评论信息, 国外亦有部分研究的实验数据源自专业的第三方点评网, 特别是针对餐饮和酒店的服务评价。例如, Ott等[ 12]采集TripAdvisor①(
识别评论垃圾的关键是提取表征评论的特征。特别是采用机器学习方法, 对特征选择需进行深入研究, 如表5所示:
目前, 识别评论垃圾的特征选取主要从评论内容和评论人两个方面考虑。评论内容特征反映评论质量和可信度。从内容和文体的角度分析, 许多研究采用了词性(POS)以及n元文法(n-gram)。一元文法(Unigrams)和二元文法(Bigrams)较常用, 结合基于LIWC的特征, 查准率可达近90%[ 12] 。LIWC反映与心理学相关的一组语言特征, 在识别欺骗型评论的任务中发挥了效用。对于评论的主观特征, 情感分析被引入, 经验表明, 如果评论的主观表现过于吹捧或者蓄意诋毁, 则极可能是垃圾, 情感分析探测评论内容的主客观度和褒贬性, 利用情感词汇的极性进行测度, 但文献[11]的研究结论表明情感因素对辨识欺骗型评论的作用并不显著, 因为欺骗型评论的识别是真伪的辨别, 如果刻意虚构评论, 则并不容易从单纯的情感词中辨识区分标准。研究指出, 仅从评论内容中提取识别虚假性评论的特征, 辨识效果往往并不十分理想。评论人特征因而被关注。因为评论人特征反映评论撰写者的个人信誉和行为, 通过探测评论人特征, 特别其行为表现可以非常准确地预测其发表评论的真伪。评论人的行为特征可表现为其发文量, 发表内容的雷同度, 发表时间以及其评价与大众评价值的偏差等一系列特征因素。文献[41]面向Yelp中的真实数据, 特别比较了基于内容特征和基于评论人特征的虚假性评论垃圾的识别效果, 发现基于评论人特征的识别效果更优。而文献[11]也指出对虚假性评论的辨别, 评论人的行为特征是评论语言特征的重要补充。通过分析评论人的行为判断其是否为评论垃圾的制造者, 间接识别其发表评论的价值。相关研究[ 11, 14, 15]探讨的评论人特征经检验[ 10]都具有显著影响作用, 为评论人特征在识别模型中的有效性提供了重要依据。
笔者也认为单纯采用内容或行为特征构建的评论垃圾识别模型会导致辨别信息的丢失和遗漏, 将两方面特征融合可获得更优效果。而另一方面, 对分类问题, 往往分类特征越全面, 整体效果越好。但众多特征间存在约束, 可能导致以特征相互独立为前提的分类器的效率降低。所以, 特征并非越多越好, 应增加显著性检验[ 10], 筛选出贡献较大且不相互依赖的表征特征, 从而提升模型的稳定性和效率。
识别评论垃圾的主流方法之一是利用可指导的机器学习方案[ 11, 12, 13, 15]。但对于机器学习方法, 识别的准确率往往取决于用于构建分类器的标注集。然而, 对虚假评论, 人工给出的标注结果带有较大随机性, 很难通过人工阅读来准确判断评论的真实性, 因而研究中最困难的是获取标准的针对虚假评论的标注集。大部分研究工作采用了近似方案来标注虚假评论。如文献[13]取雷同或近似雷同的评论作为虚假评论, 文献[16]采用人工标注, 文献[12]则利用了AMT(Amazon Mechanical Turk)生成虚假评论, 并结合人工标注生成训练集。尽管采取了一系列的处理和选择的方法, 但标注的数据集都存在可靠性问题。如, 文献[12]的研究在AMT模拟的虚假评论数据集上有很好的表现, 但在真实的商业数据集 (Yelp的评论数据)中, 识别效果却并不理想[ 41]。因为AMT虚构的评论垃圾并不能探测出评论垃圾发布人的真实目的, 无法模拟出其真实的心理状态。可见, 如果标注集的真实性不能得到保证, 那么评论垃圾辨识就失去了参照和基准, 结果便不具备信服力。有指导的分类方法在评论垃圾识别上有一定局限, 要想在传统机器学习分类器上有所突破, 高质量的标注集的获取至关重要。
鉴于标注集的问题, 最近的一组研究尝试采用非指导的学习方案, 进行评论垃圾识别。文献[45-47]采用了频繁项目挖掘实现评论垃圾识别, 频繁项目挖掘在检测个体评论垃圾发布人和评论垃圾发布人群体①中得以较好应用, 识别过程的关键在于频繁规则筛选标准的定义。文献[44]则采用了聚类算法, 通过分析评论人的行为特征, 探测评论垃圾发布人和非评论垃圾发布人分布上的差异, 辨识评论垃圾的撰写者, 识别评论垃圾。研究评论人行为及信誉来识别评论垃圾的方向还包括图论[ 7]、分布规律[ 48, 49, 50]等, 较为新颖, 有待进一步探讨。可见, 为了回避人工标注训练数据集会导致的判断偏差, 很多研究以评论人为突破口。通过分析评论人的行为表现, 迂回地选取评论内容之外的信息特征, 来间接判断评论垃圾。相比于直接挖掘评论内容特征的判定方式, 这类方法更能保证判别的效率和稳定性。但这类方法的评判依据毕竟是评论内容之外的间接特征, 是否能够充分地反映信息内容本身的可信度, 值得深入研究, 因而其信服力和准确性仍有待进一步提高。
开放的网络环境资源丰富, 但缺乏监管的现状使网络资讯良莠混杂, 难以被有效利用。真实可信的网络评论能够为用户提供有价值参考, 引导整个行业或产品的改进, 向更符合用户需求的健康方向发展, 但虚假无效的评论垃圾则会误导消费者, 带来更严重的负面效应。辨识资讯真伪, 提高信息质量, 使网络资源可利用价值最大化, 评论垃圾识别是一个值得关注的具有社会和应用价值的热点问题。
本文从实践研究角度对该领域研究进行了较系统的分析和梳理, 分别从概念辨识、研究范畴、方法以及关键技术等方面对相关研究进行了总结和评述, 得出如下结论:
(1) 概念上, 笔者界定“评论垃圾”指故意过分吹捧或过分贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。本质上不同于“邮件垃圾”和“网页垃圾”。
(2) 研究范畴上, 国内研究中, 对评论可信度与评论有用性的区分不甚明晰。笔者认为评论垃圾识别是评论可信性研究的应用体现。可信性研究关注信息真伪的辨别, 而信息效用价值的研究则是可信性研究的后继。
(3) 研究方法上, 辨别评论垃圾的关键是提取表征评论垃圾性的特征。评论内容和评论人特征同样重要, 融合两方面特征的识别模型具有更优的效果。
(4) 实现技术上, 由于存在标注偏差, 面向评论内容, 基于机器学习的分类方法存在一定局限。基于评论人及其他外部特征的解决方案有新意和潜力, 但需要深入探索。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|