Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (6): 55-70     https://doi.org/10.11925/infotech.2096-3467.2021.1259
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于用户-评论-商户关系的虚假用户识别研究:用户偏差分析的视角
孟园(),王悦
上海对外经贸大学统计与信息学院 上海 201620
Identifying Fake Accounts with User-Review-Shop Relationship and User Deviation Analysis
Meng Yuan(),Wang Yue
School of Statistics and Information, Shanghai University of International Business and Economics, Shanghai 201620, China
全文: PDF (2328 KB)   HTML ( 15
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 以用户-评论-商户虚假度增强关系为基础,提出一种基于用户偏差的虚假度迭代修正模型(URS-FDIRM),以有效识别虚假用户。【方法】 分别采用均值法、JS散度和KL散度三种方法测度用户内容偏差和用户行为偏差,基于马蜂窝平台的实验数据构建URS-FDIRM模型识别虚假用户。【结果】 三种方法均能有效测度用户的内容偏差和行为偏差,其中,采用均值法的URS-FDIRM模型对虚假用户识别效果最佳,F1值达92.57%。【局限】 该方法主要结合常规偏差度量方法提取用户偏差指标,未探索包括更多用户行为特征的偏差度量方法,一定程度影响了虚假用户识别效果。【结论】 考虑用户-评论之间的内容偏差和商户-用户之间的行为偏差,能捕获更多的用户虚假度线索,揭示用户-评论-商户三者虚假度的相互关系,为异常用户行为监测提供参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孟园
王悦
关键词 用户偏差增强关系虚假用户识别均值偏差虚假度    
Abstract

[Objective] Based on the user-review-shop (URS) and the fake degree relationship, this paper proposes a model based on user deviation, aiming to effectively identify fake accounts. [Methods] First, we measured the user’s deviations of contents and behaviors with the means method, JS divergence and KL divergence respectively. Then, we constructed the URS-FDIRM model to identify fake users with experimental data from mafengwo.com. [Results] The proposed models effectively measured the user’s deviations of contents and behaviors. The F1 value of URS-FDIRM model reached 92.57%. [Limitations] This method mainly uses the conventional measurements to extract the deviation index and did not include more deviation measurements with user behaviors. [Conclusions] The proposed method could help us reveal the false relationship among users, reviews and shops, and monitor abnormal user behaviors.

Key wordsUser Deviation    Reinforcing Relationship    Fake User Identification    Mean Deviation    Fake Degree
收稿日期: 2021-11-04      出版日期: 2022-07-28
ZTFLH:  TP391  
基金资助:*上海市哲学社会科学规划课题一般项目(2020BGL009);上海对外经贸大学研究生科研创新培育项目(2021-030800-05)
通讯作者: 孟园, ORCID:0000-0002-6595-8370     E-mail: nancymeng@suibe.edu.cn
引用本文:   
孟园, 王悦. 基于用户-评论-商户关系的虚假用户识别研究:用户偏差分析的视角[J]. 数据分析与知识发现, 2022, 6(6): 55-70.
Meng Yuan, Wang Yue. Identifying Fake Accounts with User-Review-Shop Relationship and User Deviation Analysis. Data Analysis and Knowledge Discovery, 2022, 6(6): 55-70.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.1259      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I6/55
Fig.1  URS-FDIRM总体设计
类型 指标缩写 指标个数
用户虚假度指标 用户活跃等级(UL
用户社交粉丝数(UF
用户提问与回答比(UQA
时间间隔(UTS
用户突发评论数(URB
用户评论次数(URN
用户评论频率(URF
用户评论集中度(URC
用户在商户中的评论集中度(USC
9
评论虚假度指标 评论长度(RL
极端评分(RR
评论图片数(RPN
评论相似度(RS
4
商户虚假度指标 商户年龄(SA
商户规模(SS
商户早期评论数(SRN
商户高评论用户数(SUN
4
Table 1  用户-评论-商户虚假度相关指标
Fig.2  URS虚假度增强关系
Fig.3  虚假用户识别迭代流程
Fig.4  用户评论数量-用户数累计分布统计
对象 指标 描述 最小值 最大值 中位数 均值 标准差
用户 UL 用户活跃等级 6.000 0 45.000 0 17.000 0 16.840 0 3.460 0
UF 用户社交粉丝数 0.000 0 5 927.000 0 1 182.000 0 960.820 0 520.730 0
UQA 用户提问与回答比 0.000 0 1.000 0 0.000 0 0.040 7 0.156 6
UTS 用户评论时间间隔 1.000 0 4 087.000 0 2 049.000 0 1 985.270 0 433.970 0
URB 用户突发评论数 1.000 0 132.000 0 2.000 0 2.780 0 7.290 0
URN 用户评论次数 51.000 0 301.000 0 54.000 0 56.600 0 12.600 0
URF 用户评论频率 0.014 2 64.000 0 0.026 9 0.093 0 1.539 6
URC 用户评论集中度 0.012 2 0.987 6 0.037 0 0.043 0 0.066 2
USC 用户在商户中评论集中度 0.181 8 1.000 0 1.000 0 0.994 3 0.022 5
评论 RL 评论长度 0.000 0 576.000 0 9.000 0 12.470 0 13.330 0
RR 极端评分 0.000 0 5.000 0 5.000 0 4.430 0 0.770 0
RPN 图片数 0.000 0 10.000 0 0.000 0 0.002 0 0.058 0
RS 评论相似度 0.000 0 1.000 0 0.028 0 0.039 0 0.045 0
商户 SA 商户年龄 0.000 0 108.000 0 8.000 0 9.807 6 7.612 7
SS 商户规模 1.000 0 1 500.000 0 80.000 0 102.070 0 92.610 0
SRN 商户早期评论数 1.000 0 73.000 0 5.000 0 7.596 5 9.910 7
SUN 商户高评论用户数(≥50) 2.000 0 73.000 0 5.000 0 7.551 3 9.782 0
Table 2  描述性统计
Fig.5  用户-评论和商户-用户分布
检验对象 |cor| |T value| P value
迭代前 迭代后 迭代前 迭代后 迭代前 迭代后
用户-评论虚假度 0.379 7 0.051 3 17.544 0 2.197 1 0.000 0*** 0.028 1***
商户-用户虚假度 0.094 8 0.098 3 11.075 0 11.488 0 0.000 0*** 0.000 0***
评论-商户虚假度 0.458 2 0.458 2 165.300 0 165.300 0 0.000 0*** 0.000 0***
Table 3  相关系数检验
Fig.6  偏差展示
Fig.7  用户虚假度偏差分析
规则 规则说明
1 如果一个用户的评论总是与对应商户中其他用户的评论差别很大,这个用户是可疑的。例如,如果一个用户总是给他评论过的商户很高的评价,而其余用户给这些商户的评价较低,此时该用户是可疑的[10]
2 如果一个用户的评论总是与对应商户中其他用户早已发布的评论很相似,这个用户是可疑的。因为虚假用户往往会复制他人已有的评论达到快速评论提高影响的目的[15]
3 如果一个用户绝大多数评论都集中在某一家或某几家商户,且总是发布好评或差评,这个用户是可疑的。此时很可能存在用户与商户之间的串谋关系[18]
4 鉴于本文所用的数据为酒店数据,具有其特殊性,如果一个用户在一天内发布了大量评论,这个用户是可疑的。
5 仅仅从评论文本观察,如果一个用户的评论总是遵循一个固定的模板,或是毫无逻辑的辞藻堆砌,这个用户是可疑的。
6 进入用户主页,观察用户相关数据及日常行为,主观感受该用户是否可疑。
7 在进行数据标注时,要综合所有相关信息进行考量,不可仅看一个方面做出想当然的判断。
Table 4  标注规则
模型 F1值
URS-FDIRM_MEAN 0.914 0
URS-FDIRM_JS 0.878 1
URS-FDIRM_KL 0.874 6
URS-FDIRM_WITHOUT_DEV 0.871 0
Table 5  模型实验结果
k P R F1
230 0.961 0 0.795 7 0.870 6
240 0.954 4 0.824 4 0.884 6
250 0.944 2 0.849 5 0.894 3
260 0.934 9 0.874 6 0.903 7
270 0.922 5 0.896 1 0.909 1
280 0.914 6 0.921 1 0.917 9
290 0.903 8 0.942 7 0.922 8
300 0.890 4 0.960 6 0.924 1
310 0.865 0 0.964 2 0.911 9
320 0.844 2 0.971 3 0.903 3
330 0.818 7 0.971 3 0.888 5
340 0.797 7 0.974 9 0.877 4
Table 6  不同k值下的URS-FDIRM_MEAN实验结果
Fig.8  F1值变化
λ F1 λ F1
0.0 0.871 0 0.6 0.591 4
0.1 0.914 0 0.7 0.483 9
0.2 0.910 4 0.8 0.344 1
0.3 0.842 3 0.9 0.222 2
0.4 0.770 6 1.0 0.179 2
0.5 0.706 1
Table 7   λ不同取值时的F1值
模型 P R F1
URS-FDIRM_MEAN 0.893 3 0.960 6 0.925 7
LR 0.881 5 0.474 1 0.613 1
RF 0.720 5 0.131 6 0.221 6
KNN 0.939 2 0.737 0 0.825 7
DNN 1.000 0 0.750 0 0.857 1
Fsum 0.262 9 0.709 7 0.383 7
Table 8  多个方法的分类效果比较
指标 Mean sq F value Pr(>F)
UL 0.205 0 35.490 0 0.000 0***
UF 0.314 1 41.600 0 0.000 0***
UQA 8.133 0 405.000 0 0.000 0***
UTS 0.528 2 55.310 0 0.000 0***
URB 0.134 0 44.960 0 0.000 0***
URN 0.045 1 26.080 0 0.000 0***
URF 0.000 0 0.044 0 0.833 0
URC 0.281 8 64.980 0 0.000 0***
USC 0.015 3 30.550 0 0.000 0***
RL 0.000 0 0.523 0 0.470 0
RR 0.013 8 0.745 0 0.388 0
RPN 0.000 0 1.854 0 0.173 0
RS 0.000 2 2.666 0 0.103 0
SA 0.005 2 32.170 0 0.000 0***
SS 0.006 0 32.020 0 0.000 0***
SRN 0.044 4 20.720 0 0.000 1***
SUN 0.046 0 21.990 0 0.000 0***
Table 9  方差分析汇总
删去的指标 新模型的F1值
URF 0.896 1
RL 0.408 6
RR 0.860 2
RPN 0.881 7
RS 0.863 8
Table 10  删去各指标后的分类效果比较
[1] Hu N, Bose I, Koh N S, et al. Manipulation of Online Reviews: An Analysis of Ratings, Readability, and Sentiments[J]. Decision Support Systems, 2012, 52(3): 674-684.
[2] Wu Y Y, Ngai E W T, Wu P K, et al. Fake Online Reviews: Literature Review, Synthesis, and Directions for Future Research[J]. Decision Support Systems, 2020, 132: 113280.
[3] 宋海霞, 严馨, 余正涛, 等. 基于自适应聚类的虚假评论检测[J]. 南京大学学报(自然科学版), 2013, 49(4): 433-438.
[3] Song Haixia, Yan Xin, Yu Zhengtao, et al. Detection of Fake Reviews Based on Adaptive Clustering[J]. Journal of Nanjing University(Natural Sciences), 2013, 49(4): 433-438.)
[4] 邓松, 万常选, 关爱浩, 等. 基于行为与内容的科技产品虚假评论识别[J]. 小型微型计算机系统, 2015, 36(11): 2498-2503.
[4] (Deng Song, Wan Changxuan, Guan Aihao, et al. Deceptive Reviews Detection of Technology Products Based on Behavior and Content[J]. Journal of Chinese Computer Systems, 2015, 36(11): 2498-2503.)
[5] Mukherjee A, Kumar A, Liu B, et al. Spotting Opinion Spammers Using Behavioral Footprints[C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2013: 632-640.
[6] Xu Q K, Zhao H. Using Deep Linguistic Features for Finding Deceptive Opinion Spam[C]// Proceedings of the 24th International Conference on Computational Linguistics. ACL, 2012:1341-1350.
[7] Feng S, Banerjee R, Choi Y. Syntactic Stylometry for Deception Detection[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. ACL, 2012:171-175.
[8] Goswami K, Park Y, Song C. Impact of Reviewer Social Interaction on Online Consumer Review Fraud Detection[J]. Journal of Big Data, 2017, 4: 15.
[9] Wang X P, Liu K, Zhao J. Handling Cold-Start Problem in Review Spam Detection by Jointly Embedding Texts and Behaviors[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. ACL, 2017: 366-376.
[10] Wang G, Xie S H, Liu B, et al. Identify Online Store Review Spammers via Social Review Graph[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 1-21.
[11] 余传明, 冯博琳, 左宇恒, 等. 基于个人-群体-商户关系模型的虚假评论识别研究[J]. 北京大学学报(自然科学版), 2017, 53(2): 262-272.
[11] (Yu Chuanming, Feng Bolin, Zuo Yuheng, et al. An Individual-Group-Merchant Relation Model for Identifying Online Fake Reviews[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(2): 262-272.)
[12] Liu Y C, Pang B. A Unified Framework for Detecting Author Spamicity by Modeling Review Deviation[J]. Expert Systems with Applications, 2018, 112: 148-155.
[13] Shan G H, Zhou L N, Zhang D S. From Conflicts and Confusion to Doubts: Examining Review Inconsistency for Fake Review Detection[J]. Decision Support Systems, 2021, 144: 113513.
[14] 彭庆喜, 钱铁云. 基于量化情感的网店垃圾评论检测[J]. 山东大学学报(理学版), 2013, 48(11): 66-72.
[14] Peng Qingxi, Qian Tieyun. Store Review Spam Detection Based on Quantitative Sentiment[J]. Journal of Shandong University(Natural Science), 2013, 48(11): 66-72.)
[15] Cao J X, Xia R Q, Guo Y F, et al. Collusion-Aware Detection of Review Spammers in Location Based Social Networks[J]. World Wide Web, 2019, 22(6): 2921-2951.
[16] 吴佳芬, 马费成. 产品虚假评论文本识别方法研究述评[J]. 数据分析与知识发现, 2019, 3(9): 1-15.
[16] (Wu Jiafen, Ma Feicheng. Detecting Product Review Spam: A Survey[J]. Data Analysis and Knowledge Discovery, 2019, 3(9): 1-15.)
[17] 袁得嵛, 章逸钒, 高见, 等. 基于用户特征提取的新浪微博异常用户检测方法[J]. 计算机科学, 2020, 47(S1): 364-368.
[17] (Yuan Deyu, Zhang Yifan, Gao Jian, et al. Abnormal User Detection Method in Sina Weibo Based on User Feature Extraction[J]. Computer Science, 2020, 47(S1): 364-368.)
[18] 张文宇, 岳昆, 张彬彬. 基于D-S证据理论的电子商务虚假评论者检测[J]. 小型微型计算机系统, 2018, 39(11): 2428-2435.
[18] (Zhang Wenyu, Yue Kun, Zhang Binbin. Detecting E-Commerce Review Spammer Based on D-S Evidence Theory[J]. Journal of Chinese Computer Systems, 2018, 39(11): 2428-2435.)
[19] 邵珠峰, 姬东鸿. 基于情感特征和用户关系的虚假评论者的识别[J]. 计算机应用与软件, 2016, 33(5): 158-161.
[19] (Shao Zhufeng, Ji Donghong. Spotting Fake Reviewers Based on Sentiment Features and Users’ Relationship[J]. Computer Applications and Software, 2016, 33(5): 158-161.)
[20] Ye J T, Akoglu L. Discovering Opinion Spammer Groups by Network Footprints[C]// Proceedings of the 2015 ACM Conference on Online Social Networks. ACM, 2015: 97.
[1] 孟园, 王洪伟. 中文评论产品特征与观点抽取方法研究*[J]. 现代图书情报技术, 2016, 32(2): 16-24.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn