数据分析与知识发现, 2022, 6(6): 55-70 doi: 10.11925/infotech.2096-3467.2021.1259

研究论文

基于用户-评论-商户关系的虚假用户识别研究:用户偏差分析的视角

孟园,,, 王悦

上海对外经贸大学统计与信息学院 上海 201620

Identifying Fake Accounts with User-Review-Shop Relationship and User Deviation Analysis

Meng Yuan,,, Wang Yue

School of Statistics and Information, Shanghai University of International Business and Economics, Shanghai 201620, China

通讯作者: 孟园, ORCID:0000-0002-6595-8370, E-mail:nancymeng@suibe.edu.cn

收稿日期: 2021-11-4   修回日期: 2022-03-11  

基金资助: *上海市哲学社会科学规划课题一般项目(2020BGL009)
上海对外经贸大学研究生科研创新培育项目(2021-030800-05)

Corresponding authors: Meng Yuan, ORCID:0000-0002-6595-8370, E-mail:nancymeng@suibe.edu.cn

Received: 2021-11-4   Revised: 2022-03-11  

Fund supported: Shanghai Philosophy and Social Sciences Planning Project(2020BGL009)
Graduate Research Innovation Cultivation Project of Shanghai University of International Business and Economics(2021-030800-05)

摘要

【目的】 以用户-评论-商户虚假度增强关系为基础,提出一种基于用户偏差的虚假度迭代修正模型(URS-FDIRM),以有效识别虚假用户。【方法】 分别采用均值法、JS散度和KL散度三种方法测度用户内容偏差和用户行为偏差,基于马蜂窝平台的实验数据构建URS-FDIRM模型识别虚假用户。【结果】 三种方法均能有效测度用户的内容偏差和行为偏差,其中,采用均值法的URS-FDIRM模型对虚假用户识别效果最佳,F1值达92.57%。【局限】 该方法主要结合常规偏差度量方法提取用户偏差指标,未探索包括更多用户行为特征的偏差度量方法,一定程度影响了虚假用户识别效果。【结论】 考虑用户-评论之间的内容偏差和商户-用户之间的行为偏差,能捕获更多的用户虚假度线索,揭示用户-评论-商户三者虚假度的相互关系,为异常用户行为监测提供参考。

关键词: 用户偏差; 增强关系; 虚假用户识别; 均值偏差; 虚假度

Abstract

[Objective] Based on the user-review-shop (URS) and the fake degree relationship, this paper proposes a model based on user deviation, aiming to effectively identify fake accounts. [Methods] First, we measured the user’s deviations of contents and behaviors with the means method, JS divergence and KL divergence respectively. Then, we constructed the URS-FDIRM model to identify fake users with experimental data from mafengwo.com. [Results] The proposed models effectively measured the user’s deviations of contents and behaviors. The F1 value of URS-FDIRM model reached 92.57%. [Limitations] This method mainly uses the conventional measurements to extract the deviation index and did not include more deviation measurements with user behaviors. [Conclusions] The proposed method could help us reveal the false relationship among users, reviews and shops, and monitor abnormal user behaviors.

Keywords: User Deviation; Reinforcing Relationship; Fake User Identification; Mean Deviation; Fake Degree

PDF (2328KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

孟园, 王悦. 基于用户-评论-商户关系的虚假用户识别研究:用户偏差分析的视角[J]. 数据分析与知识发现, 2022, 6(6): 55-70 doi:10.11925/infotech.2096-3467.2021.1259

Meng Yuan, Wang Yue. Identifying Fake Accounts with User-Review-Shop Relationship and User Deviation Analysis[J]. Data Analysis and Knowledge Discovery, 2022, 6(6): 55-70 doi:10.11925/infotech.2096-3467.2021.1259

1 引言

网络经济时代,用户在线评论受到广泛关注,其强大的口碑效应对消费者购买决策产生了深远影响。然而,受经济利益的驱使,某些用户故意操纵在线评论、刻意误导消费者的现象屡见不鲜。这些用户被称为虚假用户,通常以真实用户身份发表不真实的在线评论,目的是蓄意提高或毁坏产品的声誉[1]。大量出现的虚假用户及虚假评论,不仅会削弱消费者对产品品牌的信任,而且将会影响在线交易未来的良性发展。因此,识别虚假用户的研究显得尤为迫切[2]

相关研究中,基于用户评论行为和评论内容的特征识别虚假用户或虚假评论最为常见[3-9],但这些研究只能识别特定行为的虚假用户或特定风格的虚假评论,难以捕捉不断变化的虚假行为及虚假评论特征。一些研究弥补了上述不足,考虑用户、用户群体、用户评论或商户等主体之间的关联关系,提取各关联主体的评估指标,构建迭代模型以识别虚假主体[10-11]。这些研究对于揭示虚假用户的特征、描述虚假用户与关联主体之间的关系等起到重要的启示作用,但都忽视了由用户个体异质性而产生的偏差。事实上,电商环境下的用户偏差至少存在于两个方面:内容偏差和行为偏差。内容偏差体现在用户评论内容风格之间的不一致性,例如一个虚假用户可能经常发表虚假评论,也可能会在某个时段以真实用户身份发表真实评论,评论风格会不一致。行为偏差主要体现为同一家商铺中的某用户与其他用户在评论行为上的不一致性,例如一家商铺的用户群中,有的是高活跃度用户,有的是高好评率用户,有的是偏好提问的用户,有的是密集评论用户等,评论行为明显不一致。最新研究指出,不同用户发表的评论内容偏差可以作为识别虚假用户或虚假评论的一个有效指标[12-13],证实了不同用户评论内容偏差的存在及其对识别虚假主体的有效性,但尚未探讨同一用户评论内容是否存在偏差、不同用户之间行为偏差是否存在影响等重要问题。

如何描述这些方面的用户偏差,如何测度该用户偏差,这些用户偏差又是否能提升虚假用户的识别精度,目前还没有系统性的研究。

基于此,本研究从用户-评论-商户(User-Review-Shop,URS)三个主体对象分别提取虚假度指标,以用户-评论-商户虚假度的增强关系为基础,围绕用户-评论内容和商户-用户行为的不一致性,分别分析用户内容偏差和行为偏差,进而建立用户-评论-商户虚假度迭代修正模型(User-Review-Shop False Degree Iteration Revised Model,URS-FDIRM),最后验证模型对虚假用户识别的有效性,为分析用户偏差、改进虚假用户检测提供新的研究和实践启示。

2 相关研究

用户的异常评论行为是识别虚假用户的主要依据。已有研究发现,虚假用户的评论行为明显区别于真实用户,如会在短期内发表大量评论[5],会赞扬或贬低某些特定品牌的产品,或者提供极端、重复的评分[14]。除上述用户异常评论行为特征,用户的社交属性也是识别虚假用户的重要线索,如用户之间的互动沟通、关注点赞等行为[2]。Cao等[15]介绍了社交网络中的位置特征对虚假用户检测的作用。此外,Wang等[10]指出,在虚假用户的识别中,还应该考虑该用户发表的评论的特征与该用户评论的产品所属商户的特征。

虚假用户的识别方法一般分为有监督学习方法和无监督方法。与识别虚假评论类似,采用有监督学习方法识别虚假用户,首先提取与虚假用户相关的特征集合,然后结合机器学习分类算法,训练分类模型识别虚假用户[16-18]。鉴于虚假用户公开数据集难以获取,同时虚假用户的评论行为经常变化,有监督学习方法难以持续追踪不同类型的虚假用户,现有研究越来越侧重通过无监督方法识别虚假用户,如通过深入挖掘用户、评论、产品或商户之间的内在关系,应用统计推断、关系网络、图模型等方法识别虚假用户或虚假群组[5,11,19-20]。其中,Mukherjee等[5]较早提出用户虚假度度量方法,建立一系列与用户行为相关的指标后,运用贝叶斯原理,结合吉布斯抽样得到用户虚假度的后验分布以及与各个指标相关的虚假度概率分布,对虚假度进行排名后得到最终的用户虚假度排名。相较而言,图模型方法更为普遍。Wang等[10]指出,基于用户行为特征识别虚假用户,只能获得一些具有特定特征的虚假评论者,因此他们采用图模型方法建立用户、评论和商户三种节点的联系,运用三者之间的可信度关系对各自的可信度进行迭代,最终得到评论者、评论和商户的可信度排序,并用于识别虚假用户。

尽管上述图模型方法全面考察了虚假用户与其他主体的关联关系,但却忽视了用户评论行为和评论内容存在的偏差及其可能会产生的影响。Liu等[12]发现,针对不同产品或同一产品的不同方面,虚假用户发表的评论通常表现出与普通用户不同的异常和偏差,因而提出基于产品不同方面的用户评论偏差维度,分析用户潜在的内容偏差,计算综合评论偏差程度并排名,以检测用户最终的虚假程度。Shan等[13]指出不同用户的在线评论在评分、内容和语言风格等方面存在明显差异,将这些差异作为特征引入虚假评论检测模型中,可以显著提升模型性能。

上述研究为进一步拓展图模型方法识别虚假用户提供了重要借鉴。基于此,本研究以用户偏差为视角,从三个方面进行创新性思考和研究。

(1)不同于已有研究考察不同用户在评论内容上的偏差,本研究聚焦用户个体异质性,着重考察同一用户发表的评论内容中存在的偏差和不同用户之间评论行为上存在的偏差,从用户自身以及不同用户之间两个不同方面,全面分析可能存在的用户偏差。

(2)考虑到用户偏差度量的精准性,采取均值法、JS散度和KL散度三种方法,分别用于测度用户内容偏差和用户行为偏差,以检验偏差度量的有效性。

(3)以用户偏差和用户-评论-商户三个关联主体虚假度增强关系作为切入点,构建URS-FDIRM模型识别虚假用户,从用户偏差的视角,深入揭示用户-评论-商户虚假度之间的内联关系。

3 研究方法

3.1 模型整体设计

本文提出的URS-FDIRM模型总体设计如图1所示。主要由5个部分组成:①URS虚假度相关指标提取与虚假度计算;②用户偏差分析;③URS虚假度增强关系;④URS-FDIRM模型构建;⑤模型评估与分析。基于用户行为特点、评论文本和商户特点,分别提取表征用户行为、评论内容和商户声誉特点的虚假度指标,并计算用户-评论-商户的初始虚假度。引入均值法、JS散度和KL散度三种测度方法,分别度量个体用户的评论内容偏差和商户中的用户行为偏差。以用户-评论-商户虚假度增强关系为基础,将内容偏差和行为偏差作为权重因子,设计迭代模型,不断修正初始虚假度,以识别虚假用户。最后,选择最优模型进行性能比较和适应性分析,以验证模型的适用性和指标的有效性。

图1

图1   URS-FDIRM总体设计

Fig.1   Design of URS-FDIRM


3.2 用户-评论-商户虚假度指标与计算

虚假度是评价用户、评论或商户等对象相对虚假程度或异常程度的概念,为统一量纲,通常其值介于0~1,越接近于1,虚假程度越高;越接近于0,虚假程度越低。虚假度的衡量通常源于一系列与异常评价对象密切相关的指标,如用户虚假度指标多源于用户评论行为,评论虚假度指标多源于评论文本,商户虚假度指标多源于商户声誉或影响力等。参考文献[5,11-13,15-16],建立用户、评论、商户的多个指标,并结合用户、评论或商户等评价对象在多个指标上的异常表现,分别得到评价对象相应的综合虚假度。

(1) 用户虚假度指标

与正常用户相比,虚假用户在评论行为上往往表现出明显异常,如点评的活跃程度、点评的突发性、点评的频率等。结合相关研究,本文建立以下主要用户虚假度指标,将其进行标准化处理后,使其值在0~1之间,越接近于1,指标虚假程度越高;越接近于0,指标虚假程度越低。

①用户活跃等级(UL[13,15]计算方法如公式(1)所示。

UL(ui)=1-ulimaxul

通常,平台中的用户被赋予的等级体现在多个方面,如用户上线次数、用户与他人互动频率、用户账户年限、用户评论数等,它体现了用户整体的活跃程度。其中,uli表示用户ui的等级,ul表示所有用户等级构成的集合,maxul为该集合中的最大值,本文所有公式中的max操作均具有相同含义。用户等级越高,说明用户长期处于活跃状态,是虚假用户的可能性就越小。因此,等级越低,越可能是虚假用户。

②用户社交粉丝数(UF[13]计算方法如公式(2)所示。

UF(ui)=1-ufimaxuf

其中,ufi表示用户ui的粉丝数,uf表示所有用户粉丝数量构成的集合。虚假用户与正常用户相比,其社交范围往往较小,相对吸引的粉丝也会较少。因此,用户社交粉丝数越少,越可能是虚假用户。

③用户提问与回答比(UQA)计算方法如公式(3)所示。

UQA(ui)=1-uqai,uqai<10,else

其中,uqai表示用户ui提问数与回答数的比值。虚假用户的目的是左右潜在用户的购买决策,会异常主动地回答他人对特定产品或服务的问题,回答数也远多于其提问数。因此,用户提问与回答比越小,越可能是虚假用户。

④用户评论时间间隔(UTS[13,15-16]计算方法如公式(4)所示。

UTS(ui)=1-utsiα1,utsi<α10,else

其中,utsi表示用户ui发表的第一条评论与最后一条评论的间隔天数,α1是根据样本数据启发式地设置的阈值。若用户在短时间内发表大量评论,则可能是虚假用户。

⑤用户突发评论数(URB[5,12-13,15-16]计算方法如公式(5)所示。

URB(ui)=urbimaxurb

其中,urbi表示用户ui的最大日评论次数,urb表示所有用户最大日评论数构成的集合。正常用户的日评论数一般不会太多,如果某个用户在一天内发布大量评论,可能是虚假用户。

⑥用户评论次数(URN[13,16]计算方法如公式(6)所示。

URN(ui)=urnimaxurn

其中,urni表示用户ui的评论次数,urn表示所有用户评论次数构成的集合。虚假用户为了操控评论,干扰消费者的决策,会发布异常大量的评论。因此,用户总评论次数越多,越可能是虚假用户。

⑦用户评论频率(URF[16]计算方法如公式(7)所示。

URF(ui)=urfimaxurf

其中,urfi表示用户ui评论次数与时间间隔的比值,其值越大,说明该用户发表评论越频繁,越可能是虚假用户。urf为所有用户的评论频率集合。

⑧用户评论集中度(URC[18]计算方法如公式(8)所示。

URC(ui)=urcimaxurc

其中,urci表示用户ui的评论集中度,是用户的单日最大评论数与该用户总评论数的比值,其值越大,说明用户评论行为越集中,越可能是虚假用户。urc为所有用户的评论集中度集合。

⑨用户在商户中的评论集中度(USC[16,18]计算方法如公式(9)所示。

USC(ui)=1-uscimaxusc

其中,usci表示用户ui的商户集中度,是用户评论的商户数目与用户总评论数的比值,商户集中度越小,说明用户在较少的商户里发布了较多评论,越可能是虚假用户。usc为所有用户的商户集中度集合。

(2) 评论虚假度指标

虚假用户发表的评论与正常评论相比,在长度、评分、图片数、评论相似度等方面可能会显现出异常。基于此,建立以下评论虚假度指标,将其进行标准化处理后,使其值在0~1之间,越接近于1,指标虚假程度越高;越接近于0,指标虚假程度越低。

①评论长度(RL[12,16]计算方法如公式(10)所示。

RL(ri)=rli-avgrlmax(rl-avgrl)

其中,rli表示评论ri的长度,rl为所有评论长度集合,avgrl表示所有评论长度的平均值。一条评论长度过长或过短,可能是虚假评论。

②极端评分(RR[5,12,15-16]计算方法如公式(11)所示。

RR(ri)=rri-avgrrmaxrr-avgrr

其中,rri为评论ri的评分,rr为所有评论评分的集合,avgrr表示所有评论评分的平均值。一条评论的评分越偏离平均水平,越可能是虚假评论。

③图片数(RPN[13]计算方法如公式(12)所示。

RPN(ri)=rpniα2,rpni<α21,else

其中,rpni为每条评论发布的图片个数,α2为根据样本数据启发式地设置的阈值,当图片数量大于阈值α2时,该指标值设为1。普通用户为节约时间成本,一般很少评论带图。因此,评论图片数越多,该评论越可能是虚假评论。

④评论相似度(RS[5,11-13,15-16]计算方法如公式(13)所示。

RS(ri)=avg(cosine_similarity(rsi,rs-i))

其中,rsi为评论ritfidf文本向量化表示,rs-i表示除评论ri之外的其他评论向量化表示,cosine_similarity(rsi,rs-i)为每条评论与其他所有评论的文本向量的余弦相似度,取其平均值avg(cosine_similarity(rsi,rs-i))作为指标值。虚假用户通常直接复制他人发布的已有评论或仅稍作修改,与已有评论存在较高的相似度。因此,该评论与其他评论越相似,则越可能是虚假评论。

(3) 商户虚假度指标

虚假商户往往是那些刚刚建立、规模不大、急需大量评论提高自身影响力或声誉的商户。基于此,建立下列商户虚假度指标,将其进行标准化处理后,使其值在0~1之间,越接近于1,指标虚假程度越高;越接近于0,指标虚假程度越低。

①商户年龄(SA[16]计算方法如公式(14)所示。

SA(si)=1-saimaxsa

其中,sai为商户si开业至今的年限,sa为所有商户开业年限构成的集合,maxsa为所有商户开业年限的最大值。新开商户没有稳定的消费者来源,为了在众多同类商户中脱颖而出,可能会雇佣虚假用户对自家产品发布评论以吸引消费者的眼球。因此,商户开业年限越短,商户虚假度越高。

②商户规模(SS)计算方法如公式(15)所示。

SS(si)=1-ssimaxss

其中,ssi为每家商户中产品或服务的种类数量,maxss为所有商户的规模最大值。与指标SA的分析类似,商户规模越小,商户虚假度越高。

③商户早期评论数(SRN[5,12,15-16]计算方法如公式(16)所示。

SRN(si)=srnimaxsrn

其中,srni为每家商户的早期评论总数,maxsrn为所有商户早期评论数的最大值。商户的早期评论数越多,该商户虚假度越高。根据样本数据,设置商户早期观察周期为三年。

④商户高评论用户数(SUN)计算方法如公式(17)所示。

SUN(si)=sunimaxsun

其中,suni为每家商户中评论数超过某一阈值(本文设为50,由样本数据启发式得到)的用户数量,maxsun为所有商户高评论用户数量的最大值。商户的高评论用户数量越多,该商户虚假度越高。

综上,用户、评论和商户虚假度相关的指标总结如表1所示。

表1   用户-评论-商户虚假度相关指标

Table 1  Indicators Related to User-Review-Shop Fake Degree

类型指标缩写指标个数
用户虚假度指标用户活跃等级(UL
用户社交粉丝数(UF
用户提问与回答比(UQA
时间间隔(UTS
用户突发评论数(URB
用户评论次数(URN
用户评论频率(URF
用户评论集中度(URC
用户在商户中的评论集中度(USC
9
评论虚假度指标评论长度(RL
极端评分(RR
评论图片数(RPN
评论相似度(RS
4
商户虚假度指标商户年龄(SA
商户规模(SS
商户早期评论数(SRN
商户高评论用户数(SUN
4

新窗口打开| 下载CSV


(4) 用户-评论-商户虚假度计算

评价对象在单个指标上的取值并不能有效评估其整体虚假程度,因此根据各个虚假度指标的表现,计算评价对象的整体虚假程度。计算思路为:将评价对象各指标进行向量化表示后,与元素全为1的等长向量进行余弦相似度计算,进而求得评价对象的虚假度。基于此,得到每个用户的虚假度UFdegree,如公式(18)所示。

UFdegree(ui)=cosine_similarity(Useri,Onesu)

其中,Useri表示每个用户各个虚假度指标构成的向量,Onesu表示与Useri等长、元素全为1的向量。

同样地,得到每条评论的虚假度RFdegree和每个商户的虚假度SFdegree,如公式(19)和公式(20)所示。

RFdegree(ri)=cosine_similarity(Reviewi,Onesr)
SFdegree(si)=cosine_similarity(Shopi,Oness)

其中,Reviewi表示每条评论各个虚假度指标构成的向量,Onesr表示与Reviewi等长、元素全为1的向量;Shopi表示每个商户各个虚假度指标构成的向量,Oness表示与Shopi等长、元素全为1的向量。

3.3 用户偏差分析

对于某个虚假用户,可能亲自撰写评论内容,也可能抄袭其他真实用户的评论内容,因此其每条评论风格各异,会出现较大偏差。再者,同一家商户中,可能同时存在虚假用户和真实用户,但虚假用户的行为通常偏离于正常用户的普遍行为。可见,虚假用户与正常用户相比,至少存在两种偏差:内容偏差和行为偏差,分别从用户-评论、商户-用户对应的虚假度指标中,考虑存在的内容偏差和行为偏差。

(1) 用户-评论内容偏差

个体层面上,同一用户发布的评论大多风格相似,评论风格总体上趋于稳定。若同一用户的评论风格波动较大,该用户有可能是可疑用户。因此,可以通过测度用户发布的某条评论与该用户总体评论风格之间的差异,发现异常的评论。偏差越大,说明用户的评论风格波动较大,越有可能是虚假评论。为此,以用户为单位,分析同一用户u的每条评论r的偏差表现,记为Reviewdev,计算方法如公式(21)所示。

Reviewdevu(r)=RReviewiDev(R)Reviewi

其中,R表示评论r的各个虚假度指标,Reviewi表示评论r所有的虚假度指标构成的集合,Dev(R)表示采用某种偏差计算方法得到的各指标上的偏差,对每个指标的偏差求平均,得到用户每条评论的虚假度偏差。

(2) 商户-用户行为偏差

对同一商户发表评论的用户之间的评论行为趋于协同。因此,可以通过测度同一商户中个体用户与该商户的群体评论行为之间的差异,发现店铺中的异常用户。偏差越大,说明该用户的评论行为与群体行为差异越大,不能很好地代表该店铺的评价水平。为此,以商户为单位,分析同一商户s中的每个用户u的行为偏差,记为Userdev,计算方法如公式(22)所示。

Userdevs(u)=UUseriDev(U)Useri

其中,U表示用户u的各个虚假度指标,Useri表示用户u所有的虚假度指标构成的集合,Dev(U)表示采用某种偏差计算方法得出的各指标上的偏差,然后对所有指标的偏差求平均。

(3) 偏差测度

基于JS散度偏差[12],本文引入均值法、JS散度和KL散度三种方法,用于测度用户偏差。

①均值偏差Mean_Dev

均值偏差是各个相关指标与组内各指标的均值的差异,以用户行为偏差为例,计算方法如公式(23)所示。

Mean_Dev=U-avgU_groupmax(U_group-avgU_group)

其中,U表示某个用户的虚假度指标,U_group表示与该用户有共同评论行为的所有用户在该指标上的取值构成的集合,avgU_group表示取该集合的均值,然后用最大值进行标准化。同理,计算评论虚假度各指标上的均值偏差。需要指出的是,评论的虚假度指标之一“评论相似度”采用余弦相似度度量值计算偏差。

②JS散度偏差JS_Dev

JS散度通常用于比较两个分布的差异,JS散度越小,两个分布越相似,偏差越小。通过比较各指标值实际分布与期望分布的差异大小进行偏差的测度[12],以用户虚假度偏差为例,计算方法如公式(24)所示。

JS_Dev=JS(DU||EU)

其中,DU表示同一店铺中的每个用户各虚假度指标的实际分布,EU表示每个用户各虚假度指标的期望分布,通过比较两者分布差异,得到每个用户各虚假度指标上的JS散度偏差值。同理,计算评论各虚假度指标的JS散度偏差。

③KL散度偏差KL_Dev

KL散度也是一种比较两个分布差异的方法,在某些情况下度量分布差异能取得较好的效果。以评论虚假度偏差为例,计算方法如公式(25)所示。

KL_Dev=KL(DR||ER)

其中,DR表示用户每条评论各虚假度指标的实际分布,ER表示相应的期望分布,通过比较两者分布差异,得到用户每条评论各虚假度指标上的KL散度偏差值。同理,计算同一店铺中每个用户的各虚假度指标KL散度偏差值。

3.4 URS虚假度增强关系与URS-FDIRM模型设计

文献[10]指出,用户-评论-商户关系节点之间存在紧密联系,因此以用户-评论-商户虚假度关系为基础,构建用户-评论-商户虚假度增强关系,如图2所示,即某个用户的虚假度受其发表的评论虚假度影响;某商户的虚假度受到对其评论的用户虚假度影响;商户的虚假度又会影响商户中评论的虚假度。

图2

图2   URS虚假度增强关系

Fig.2   Reinforced Relationship of URS


基于评论虚假度和用户虚假度之间的增强关系,可以在用户虚假度计算过程中,引入该用户的评论虚假度影响,从而利用评论的虚假度结果和用户-评论的内容偏差,不断修正用户虚假度计算结果。同理,基于用户虚假度和商户虚假度之间的增强关系,在商户虚假度计算过程中,引入商户中的用户虚假度影响,利用用户的虚假度结果和商户-用户的行为偏差,不断修正商户虚假度计算结果。评论与商户节点没有涉及用户对象,但基于评论虚假度和商户虚假度的增强关系,直接使用更新后的商户虚假度对评论虚假度进行迭代修正。上述计算过程对应三组模型,分别为UR-FDIRM、SU-FDIRM、RS-FDIRM

(1) UR-FDIRM

根据用户每条评论内容偏差分析的结果,设计用户-评论(User-Review,UR)虚假度偏差修正因子Wur,其每个分量wur的计算如公式(26)所示。

wur=1-Reviewdevu(r)sum(1-Reviewdevu(*)),rR(u)

其中,Reviewdevur表示用户u在其评论r上的内容偏差,Reviewdevu*表示该用户所有评论的虚假度偏差值向量。偏差越大,说明该评论越不能很好地代表该用户评论虚假度的一般水平,则赋予其一个较小的权重;相反,赋予偏差较小的评论一个较大的权重,因此,用1减去偏差值并做归一化处理。

基于用户和评论的虚假度增强关系,利用用户-评论虚假度偏差修正因子,实现由评论虚假度对用户虚假度的更新与调整,如公式(27)所示。

UFdegree(ui)=λ1(Wur×RFdegree(rui))+(1-λ1)UFdegree(ui)

其中,UFdegree(ui)表示某个用户ui的虚假度,RFdegree(rui)表示该用户所有评论的虚假度,λ1为调节参数,决定用户虚假度更新时的步幅。

(2) SU-FDIRM

根据店铺中每个用户行为偏差分析的结果,设计商户-用户(Shop-User,SU)虚假度偏差调节因子Wsu,其每个分量wsu的计算如公式(28)所示。

wsu=1-Userdevsusum(1-Userdevs*),uUs

其中,Userdevsu表示商户s的用户u的行为偏差,Userdevs*表示该店铺所有用户的行为偏差向量。偏差越大,说明该用户越不能代表群体的普遍评论行为,故赋予其一个较小的权重,用1减去偏差值,最后做归一化处理。

基于商户和用户的增强关系,利用商户-用户虚假度偏差修正因子Wsu,实现由用户虚假度对商户虚假度的更新与调整,如公式(29)所示。

SFdegree(si)=λ2(Wsu×UFdegree(usi))+(1-λ2)SFdegree(si)

其中,SFdegree(si)表示某家商户si的虚假度,UFdegree(usi)表示该商户中所有用户的虚假度,λ2为调节参数,决定商户虚假度更新时的步幅。

(3) RS-FDIRM

基于评论-商户(Review-Shop,RS)的增强关系,直接使用商户虚假度对评论虚假度进行更新,如公式(30)所示。

RFdegree(ri)=λ3×SFdegree(sri)+(1-λ3)×RFdegree(ri)

其中,RFdegree(ri)表示每条评论ri的虚假度,SFdegree(sri)表示该条评论所在的商户虚假度,λ3为调节因子,决定评论虚假度更新时的步幅。

(4) 迭代计算过程

迭代开始时,根据用户-评论-商户的虚假度指标含义,分别计算用户、评论、商户的初始虚假度,作为各个对象虚假度的初始值,然后利用公式(27)、公式(29)和公式(30)开始迭代,直至模型收敛。迭代完成后得到的UFdegreeRFdegreeSFdegree分别为用户、评论、商户最终的虚假度。最后,对用户虚假度进行排名,通过设定阈值,确定虚假用户。具体实现流程如图3所示。

图3

图3   虚假用户识别迭代流程

Fig.3   Process of Fake Users Identification


4 实 验

4.1 实验数据

本文以马蜂窝平台(https://www.mafengwo.cn/)作为实验数据来源,重点采集北京、上海、广州、深圳等一线城市的相关数据。截至2021年6月,共获得酒店数据14 095条,用户数据7 882条,评论数据339 364条。文献[12]指出,用户发表的评论越多,体现出的用户行为就越多,就能够为虚假用户识别提供更多的线索。考虑到本文需要人工标注一部分数据集,而虚假评论者的标注任务又具有一定复杂性,为增加模型识别虚假评论者的准确性,本文参照文献[12]最终选取发布评论数较多的用户作为分析对象。此外,根据帕累托法则(Pareto Principle),80%的虚假评论来自20%的用户,因此,选取评论总数排名约前20%的用户。经计算,前20%的用户评论数最少在50条左右,如图4所示。在初始数据集中剔除评论总数小于50条的用户数据及相应的酒店、评论数据。

图4

图4   用户评论数量-用户数累计分布统计

Fig.4   Cumulative Distribution of Number of User Reviews and Number of Users


最终获得的实验数据包括13 551家酒店、1 829个用户和102 788条评论数据。各指标在标准化之前的描述性统计如表2所示。在实验数据集中,初步统计用户发表的评论数分布情况和各个商户中的用户数分布情况,如图5所示。在1 829个用户中,多数用户的评论数集中在51~60条之间,有少数用户的评论数大于70条,结合表2,用户评论数最高可至300条。这类用户的评论数量明显偏离总体分布,可能存在异常用户。在13 551家商户中,用户数大多集中在2~10之间,结合表2,最多用户数达到73个,经统计可得,约86.54%的商户高评论用户数小于10,95.12%的商户高评论用户数小于30,而有些商户中的高评论用户数远大于30,明显偏离总体分布,说明这些商户可能存在异常。

表2   描述性统计

Table 2  Descriptive Statistics

对象指标描述最小值最大值中位数均值标准差
用户UL用户活跃等级6.000 045.000 017.000 016.840 03.460 0
UF用户社交粉丝数0.000 05 927.000 01 182.000 0960.820 0520.730 0
UQA用户提问与回答比0.000 01.000 00.000 00.040 70.156 6
UTS用户评论时间间隔1.000 04 087.000 02 049.000 01 985.270 0433.970 0
URB用户突发评论数1.000 0132.000 02.000 02.780 07.290 0
URN用户评论次数51.000 0301.000 054.000 056.600 012.600 0
URF用户评论频率0.014 264.000 00.026 90.093 01.539 6
URC用户评论集中度0.012 20.987 60.037 00.043 00.066 2
USC用户在商户中评论集中度0.181 81.000 01.000 00.994 30.022 5
评论RL评论长度0.000 0576.000 09.000 012.470 013.330 0
RR极端评分0.000 05.000 05.000 04.430 00.770 0
RPN图片数0.000 010.000 00.000 00.002 00.058 0
RS评论相似度0.000 01.000 00.028 00.039 00.045 0
商户SA商户年龄0.000 0108.000 08.000 09.807 67.612 7
SS商户规模1.000 01 500.000 080.000 0102.070 092.610 0
SRN商户早期评论数1.000 073.000 05.000 07.596 59.910 7
SUN商户高评论用户数(≥50)2.000 073.000 05.000 07.551 39.782 0

新窗口打开| 下载CSV


图5

图5   用户-评论和商户-用户分布

Fig.5   Distribution of User-Review and Shop-User


4.2 用户-评论-商户虚假度关系检验

为验证本文所建立的用户-评论-商户虚假度增强关系的合理性,首先检验用户、评论、商户三者之间的虚假度是否存在一定程度的关联关系,为此对用户-评论、商户-用户、评论-商户两两之间迭代前的初始虚假度与迭代后的最终虚假度分别进行相关系数检验。检验结果如表3所示,在0.05的显著性水平下,各P值均显著,说明用户-评论、商户-用户、评论-商户两两之间的虚假度在迭代前与迭代后均存在相关关系,这为本文模型的建立提供了支撑。

表3   相关系数检验

Table 3  Correlation Coefficient Test

检验对象|cor||T value|P value
迭代前迭代后迭代前迭代后迭代前迭代后
用户-评论虚假度0.379 70.051 317.544 02.197 10.000 0***0.028 1***
商户-用户虚假度0.094 80.098 311.075 011.488 00.000 0***0.000 0***
评论-商户虚假度0.458 20.458 2165.300 0165.300 00.000 0***0.000 0***

(注:***表示在0.05水平上显著。)

新窗口打开| 下载CSV


4.3 用户偏差分析

(1) 指标偏差分析

狭义上,用户偏差体现为用户相关指标值与整体平均水平的差异。变异系数可表示一组数据的离散程度,变异系数越大,说明与该组数据的平均数相比,这组数据的离散程度越大,即偏差越大。由此可知,若某指标上用户的变异系数越大,则存在的用户偏差越大。为此,计算用户各指标的变异系数,初步描述用户在相关指标上是否存在一定程度的偏差,结果如图6所示。

以用户粉丝数(UF)、用户评论时间间隔(UTS)两个指标为例,以商户为单位,计算每个商户内用户的UFUTS指标的变异系数,从图6(a)和图6(b)的所有商户UFUTS指标的分布来看,相当多数量的商户用户在两个指标上存在不同程度的偏差(y轴0以上的点),证实了商户内用户行为指标偏差的普遍存在。同样,以RL(评论长度)、RR(评论极端评分)两个指标为例,以用户为单位,计算每个用户发布的评论在RLRR两个指标上的变异系数,从图6(c)和图6(d)的所有用户RLRR指标的分布来看,相当多数量的用户在两个指标上存在不同程度的偏差,证实了用户评论内容指标偏差的普遍存在。

图6

图6   偏差展示

Fig.6   Deviation Display


(2) 虚假度偏差分析

由于用户的虚假度是否存在偏差是识别虚假用户的关键,因此以同样方法分析用户的虚假度是否存在偏差。分别计算商户内的用户初始虚假度(模型迭代前)和最终虚假度(模型迭代后)的变异系数,如图7所示。其中,多数点不同程度地偏离x轴,说明不论是模型迭代前,还是模型迭代后,商户中相当多数量的用户虚假度存在偏差,为本文从用户偏差的视角识别虚假用户奠定了基础。

图7

图7   用户虚假度偏差分析

Fig.7   User Fake Degree Deviation Analysis


4.4 模型性能分析

(1) 虚假用户识别结果

为评估URS-FDIRM在虚假用户识别问题上的有效性,邀请三名专业人员进行数据标注。虚假用户判别是一项复杂的任务,通常需要搜集大量的相关资料,综合判断各个方面后给出对应的标签。为保证标注的准确性,参照文献[10],为标注者提供用户主页网址、用户评论文本、用户评论对应的商户、该商户中其他用户的评论等一系列相关数据。同时,为标准化这一复杂的判断过程,在共同商议后,标注人员达成一致,主要遵循如表4所示的7个规则,并在此规则的基础上完成数据标注工作。

表4   标注规则

Table 4  Tagging Rules

规则规则说明
1如果一个用户的评论总是与对应商户中其他用户的评论差别很大,这个用户是可疑的。例如,如果一个用户总是给他评论过的商户很高的评价,而其余用户给这些商户的评价较低,此时该用户是可疑的[10]
2如果一个用户的评论总是与对应商户中其他用户早已发布的评论很相似,这个用户是可疑的。因为虚假用户往往会复制他人已有的评论达到快速评论提高影响的目的[15]
3如果一个用户绝大多数评论都集中在某一家或某几家商户,且总是发布好评或差评,这个用户是可疑的。此时很可能存在用户与商户之间的串谋关系[18]
4鉴于本文所用的数据为酒店数据,具有其特殊性,如果一个用户在一天内发布了大量评论,这个用户是可疑的。
5仅仅从评论文本观察,如果一个用户的评论总是遵循一个固定的模板,或是毫无逻辑的辞藻堆砌,这个用户是可疑的。
6进入用户主页,观察用户相关数据及日常行为,主观感受该用户是否可疑。
7在进行数据标注时,要综合所有相关信息进行考量,不可仅看一个方面做出想当然的判断。

新窗口打开| 下载CSV


依据多数投票的原则,对于一个用户,如果至少两个标注者认为其是虚假用户,则标记为1,否则标记为0,最终在1 829个用户中标注出279位虚假用户。经过对标注结果的Cohen-Kappa检验,两两标注结果的Kappa平均值达91.65%,标注的一致性结果较为理想。

建立均值偏差、JS散度偏差、KL散度偏差下的URS-FDIRM模型和未使用偏差进行迭代的模型,分别表示为URS-FDIRM_MEAN、URS-FDIRM_JS、URS-FDIRM_KL及URS-FDIRM_WITHOUT_DEV,建立模型时三组参数λ均设置为0.1。取虚假度排名前k个(此处设置k=279,为标记的虚假用户数量)用户作为模型识别出的虚假用户。选择F1值作为模型的评估指标,4个模型的识别效果如表5所示。

表5   模型实验结果

Table 5  The Experimental Results

模型F1值
URS-FDIRM_MEAN0.914 0
URS-FDIRM_JS0.878 1
URS-FDIRM_KL0.874 6
URS-FDIRM_WITHOUT_DEV0.871 0

新窗口打开| 下载CSV


均值偏差URS-FDIRM_MEAN模型的识别效果最好,F1值可达91.40%,JS散度偏差URS-FDIRM_JS模型次之。整体上,三种偏差下的URS-FDIRM模型的识别效果均好于未使用偏差进行迭代的模型,说明用户偏差是识别虚假用户的重要因素。

考虑到虚假用户数量k的选择对模型实验结果可能会造成影响,对k进行多次取值,三组参数λ均设置为0.1,采用精确率、召回率、F1值(分别记为PRF1)评价实验结果。随着k取值的变化,URS-FDIRM_MEAN模型分类效果出现一定变化,如表6所示。当k越来越大时,P值逐渐减小,R值逐渐增大,F1值先增大后减小。选择F1值作为评估指标,当k取值在人工标注的虚假用户个数附近时,模型分类效果较好。在k值由小到大过程中,各模型F1值变化如图8所示,当k取318时,URS-FDIRM_MEAN模型的F1值达到最大值0.925 7。

表6   不同k值下的URS-FDIRM_MEAN实验结果

Table 6  Experimental Results Under Different k Values

kPRF1
2300.961 00.795 70.870 6
2400.954 40.824 40.884 6
2500.944 20.849 50.894 3
2600.934 90.874 60.903 7
2700.922 50.896 10.909 1
2800.914 60.921 10.917 9
2900.903 80.942 70.922 8
3000.890 40.960 60.924 1
3100.865 00.964 20.911 9
3200.844 20.971 30.903 3
3300.818 70.971 30.888 5
3400.797 70.974 90.877 4

新窗口打开| 下载CSV


图8

图8   F1值变化

Fig.8   Change of F1 Score


进一步考察迭代过程中三组λ参数的不同取值对最终识别效果产生的影响。考虑到三组λ参数的搜索空间复杂性,将三组参数设置为相同值。固定k为标记的虚假用户数量(279),计算λ取不同值时,URS-FDIRM_MEAN模型识别的F1值,结果如表7所示。当λ取值均为0.1时,模型识别效果最好。随着λ值增大,F1值逐渐减小。因此,在迭代中将参数值统一设置为0.1。

表7   λ不同取值时的F1值

Table 7  F1 Score Under Different λ

λF1λF1
0.00.871 00.60.591 4
0.10.914 00.70.483 9
0.20.910 40.80.344 1
0.30.842 30.90.222 2
0.40.770 61.00.179 2
0.50.706 1

新窗口打开| 下载CSV


(2) 与基准方法对比分析

设置参数kλ为(1)中分析得到的最优参数(318,0.1),将最优模型URS-FDIRM_MEAN与其他方法进行对比分析。对于表1中的各个指标,建立逻辑回归模型(LR)、随机森林模型(RF)、K-近邻模型(KNN)、深度神经网络模型(DNN)等4个有监督分类模型和Feature Sum(记为Fsum)这一无监督排序模型。计算各个模型的PRF1值,如表8所示。其中,Fsum方法是一种虚假用户识别方法[5],它将所有指标求和并排序,是最常用的虚假用户识别基准方法。

表8   多个方法的分类效果比较

Table 8  Algorithm Performance

模型PRF1
URS-FDIRM_MEAN0.893 30.960 60.925 7
LR0.881 50.474 10.613 1
RF0.720 50.131 60.221 6
KNN0.939 20.737 00.825 7
DNN1.000 00.750 00.857 1
Fsum0.262 90.709 70.383 7

新窗口打开| 下载CSV


在虚假用户识别方面,URS-FDIRM_MEAN、KNN、DNN三个方法的识别效果较好。尽管DNN与KNN在P值上优于其他方法,但R值较小,导致最终的F1值低于本文模型;URS-FDIRM_MEAN在RF1值两个指标上优于其他方法,表明与其他方法相比,该模型对于虚假用户识别更有效;此外,LR、RF、Fsum方法识别效果较差。

4.5 模型适应性分析

为检验各虚假度指标在虚假用户识别上的有效性,以虚假用户标注标签(0或1)为自变量、各个相关指标为因变量分别进行方差分析。方差分析可用来检验分类型自变量对数值型因变量的影响。为保证虚假用户标注标签与各指标的一一对应,对评论虚假度指标与商户虚假度指标以用户为单位,在各指标上取均值,方差分析结果如表9所示。

表9   方差分析汇总

Table 9  ANOVA Summary

指标Mean sqF valuePr(>F)
UL0.205 035.490 00.000 0***
UF0.314 141.600 00.000 0***
UQA8.133 0405.000 00.000 0***
UTS0.528 255.310 00.000 0***
URB0.134 044.960 00.000 0***
URN0.045 126.080 00.000 0***
URF0.000 00.044 00.833 0
URC0.281 864.980 00.000 0***
USC0.015 330.550 00.000 0***
RL0.000 00.523 00.470 0
RR0.013 80.745 00.388 0
RPN0.000 01.854 00.173 0
RS0.000 22.666 00.103 0
SA0.005 232.170 00.000 0***
SS0.006 032.020 00.000 0***
SRN0.044 420.720 00.000 1***
SUN0.046 021.990 00.000 0***

(注:***表示在0.05水平上显著。)

新窗口打开| 下载CSV


结果表明,除URFRLRRRPNRS之外,其余指标均显著,即虚假用户与非虚假用户在这些指标上取值的均值有显著差异。进一步考察不显著的各个指标在本文模型中的作用大小。分别删去各指标,重新按照本文方法建立URS-FDIRM_MEAN模型,得到的模型对于虚假用户识别的效果如表10所示。可知,新模型与原模型相比,识别效果有所下降,这表明虽然虚假用户与非虚假用户在这些指标上取值无明显差异,但这些指标在模型中仍发挥着一定的作用。观察各指标可发现,它们均为用户虚假度指标或评论虚假度指标,未通过显著性检验有可能是商户-用户行为偏差和用户-评论内容偏差过于分散导致的。综上,本文所选择的虚假度相关指标对于虚假用户识别问题的有效性得以验证。

表10   删去各指标后的分类效果比较

Table 10  Algorithm Performance Without Some Indicators

删去的指标新模型的F1值
URF0.896 1
RL0.408 6
RR0.860 2
RPN0.881 7
RS0.863 8

新窗口打开| 下载CSV


5 结语

针对当前虚假用户识别问题面临的挑战,本研究提出了一种基于偏差的虚假度修正关系模型URS-FDIRM。实验结果表明,该模型具有较好的虚假用户识别性能。本研究的主要工作以构建用户-评论-商户虚假度指标体系为基础,以用户内容偏差和用户行为偏差测度为核心,结合用户偏差和用户-评论-商户虚假度迭代关系,构建虚假用户识别模型,最终提升虚假用户识别精度。

本研究存在以下局限性:

(1) 受限于公开数据集的限制,仅选择马蜂窝平台数据作为实验数据。尽管在数据探索性分析和模型验证等方面取得了理想的实验效果,但未来还应探索更多平台的数据集,拓展模型的应用范围。

(2) 在测度用户偏差方面,检验了均值法、JS散度和KL散度三种方法在建立的指标体系上的测量效果,是否还有其他的用户指标能表征用户偏差,未来可以进行更多的尝试和检验。

作者贡献声明

孟园:拟定研究命题,提出研究思路,论文起草及最终版本修订;

王悦:采集、清洗和分析实验数据,进行实验。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,https://github.com/wy416408/support_data。

[1] 孟园, 王悦. jiudianData.rar. 包括酒店相关数据及酒店中的评论信息.

[2] 孟园, 王悦. users_data.rar. 原始数据, 包括用户相关数据.

[3] 孟园, 王悦. UsersData_all.sql. 处理后的全部用户数据(图4).

[4] 孟园, 王悦. FilteredData.sql. 实验用户表、评论表及商铺表(表2图5).

[5] 孟园, 王悦. URS_spam.rar. 迭代前后用户-评论-商户两两虚假度数据(表3).

[6] 孟园, 王悦. SU_UR_cov.rar. 用户指标、用户评论指标的变异系数等(图6图7).

[7] 孟园, 王悦. result.sql. 用户虚假度比较实验排序结果、用户虚假度排名和用户初始虚假度排名、虚假用户标注结果、参数不同取值时的比较结果等(表5-表8表10图8).

[8] 孟园,王悦. user_index.csv. 用户对应的各个指标取值及虚假用户标签(表8表9).

参考文献

Hu N, Bose I, Koh N S, et al.

Manipulation of Online Reviews: An Analysis of Ratings, Readability, and Sentiments

[J]. Decision Support Systems, 2012, 52(3): 674-684.

[本文引用: 1]

Wu Y Y, Ngai E W T, Wu P K, et al.

Fake Online Reviews: Literature Review, Synthesis, and Directions for Future Research

[J]. Decision Support Systems, 2020, 132: 113280.

[本文引用: 2]

宋海霞, 严馨, 余正涛, .

基于自适应聚类的虚假评论检测

[J]. 南京大学学报(自然科学版), 2013, 49(4): 433-438.

[本文引用: 1]

Song Haixia, Yan Xin, Yu Zhengtao, et al.

Detection of Fake Reviews Based on Adaptive Clustering

[J]. Journal of Nanjing University(Natural Sciences), 2013, 49(4): 433-438.)

[本文引用: 1]

邓松, 万常选, 关爱浩, .

基于行为与内容的科技产品虚假评论识别

[J]. 小型微型计算机系统, 2015, 36(11): 2498-2503.

[本文引用: 1]

(Deng Song, Wan Changxuan, Guan Aihao, et al.

Deceptive Reviews Detection of Technology Products Based on Behavior and Content

[J]. Journal of Chinese Computer Systems, 2015, 36(11): 2498-2503.)

[本文引用: 1]

Mukherjee A, Kumar A, Liu B, et al.

Spotting Opinion Spammers Using Behavioral Footprints

[C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2013: 632-640.

[本文引用: 10]

Xu Q K, Zhao H.

Using Deep Linguistic Features for Finding Deceptive Opinion Spam

[C]// Proceedings of the 24th International Conference on Computational Linguistics. ACL, 2012:1341-1350.

[本文引用: 1]

Feng S, Banerjee R, Choi Y.

Syntactic Stylometry for Deception Detection

[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. ACL, 2012:171-175.

[本文引用: 1]

Goswami K, Park Y, Song C.

Impact of Reviewer Social Interaction on Online Consumer Review Fraud Detection

[J]. Journal of Big Data, 2017, 4: 15.

[本文引用: 1]

Wang X P, Liu K, Zhao J.

Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. ACL, 2017: 366-376.

[本文引用: 1]

Wang G, Xie S H, Liu B, et al.

Identify Online Store Review Spammers via Social Review Graph

[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 1-21.

[本文引用: 6]

余传明, 冯博琳, 左宇恒, .

基于个人-群体-商户关系模型的虚假评论识别研究

[J]. 北京大学学报(自然科学版), 2017, 53(2): 262-272.

[本文引用: 4]

(Yu Chuanming, Feng Bolin, Zuo Yuheng, et al.

An Individual-Group-Merchant Relation Model for Identifying Online Fake Reviews

[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 262-272.)

[本文引用: 4]

Liu Y C, Pang B.

A Unified Framework for Detecting Author Spamicity by Modeling Review Deviation

[J]. Expert Systems with Applications, 2018, 112: 148-155.

[本文引用: 12]

Shan G H, Zhou L N, Zhang D S.

From Conflicts and Confusion to Doubts: Examining Review Inconsistency for Fake Review Detection

[J]. Decision Support Systems, 2021, 144: 113513.

[本文引用: 10]

彭庆喜, 钱铁云.

基于量化情感的网店垃圾评论检测

[J]. 山东大学学报(理学版), 2013, 48(11): 66-72.

[本文引用: 1]

Peng Qingxi, Qian Tieyun.

Store Review Spam Detection Based on Quantitative Sentiment

[J]. Journal of Shandong University(Natural Science), 2013, 48(11): 66-72.)

[本文引用: 1]

Cao J X, Xia R Q, Guo Y F, et al.

Collusion-Aware Detection of Review Spammers in Location Based Social Networks

[J]. World Wide Web, 2019, 22(6): 2921-2951.

[本文引用: 9]

吴佳芬, 马费成.

产品虚假评论文本识别方法研究述评

[J]. 数据分析与知识发现, 2019, 3(9): 1-15.

[本文引用: 12]

(Wu Jiafen, Ma Feicheng.

Detecting Product Review Spam: A Survey

[J]. Data Analysis and Knowledge Discovery, 2019, 3(9): 1-15.)

[本文引用: 12]

袁得嵛, 章逸钒, 高见, .

基于用户特征提取的新浪微博异常用户检测方法

[J]. 计算机科学, 2020, 47(S1): 364-368.

[本文引用: 1]

(Yuan Deyu, Zhang Yifan, Gao Jian, et al.

Abnormal User Detection Method in Sina Weibo Based on User Feature Extraction

[J]. Computer Science, 2020, 47(S1): 364-368.)

[本文引用: 1]

张文宇, 岳昆, 张彬彬.

基于D-S证据理论的电子商务虚假评论者检测

[J]. 小型微型计算机系统, 2018, 39(11): 2428-2435.

[本文引用: 4]

(Zhang Wenyu, Yue Kun, Zhang Binbin.

Detecting E-Commerce Review Spammer Based on D-S Evidence Theory

[J]. Journal of Chinese Computer Systems, 2018, 39(11): 2428-2435.)

[本文引用: 4]

邵珠峰, 姬东鸿.

基于情感特征和用户关系的虚假评论者的识别

[J]. 计算机应用与软件, 2016, 33(5): 158-161.

[本文引用: 1]

(Shao Zhufeng, Ji Donghong.

Spotting Fake Reviewers Based on Sentiment Features and Users’ Relationship

[J]. Computer Applications and Software, 2016, 33(5): 158-161.)

[本文引用: 1]

Ye J T, Akoglu L.

Discovering Opinion Spammer Groups by Network Footprints

[C]// Proceedings of the 2015 ACM Conference on Online Social Networks. ACM, 2015: 97.

[本文引用: 1]

/