Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (1): 63-68    DOI: 10.11925/infotech.1003-3513.2013.01.10
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
垃圾商品评论信息的识别研究
李霄, 丁晟春
南京理工大学信息管理系 南京 210094
Research on Review Spam Recognition
Li Xiao, Ding Shengchun
Department of Information and Management, Nanjing University of Science & Technology, Nanjing 210094, China
全文: PDF(510 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 从信息有用性的角度对垃圾商品评论信息进行分析,选择数码领域的相机评论作为研究对象,构建数据集,从评论、评论者和被评论的商品三个方面选择11个特征,使用支持向量机模型中4种常用的核函数进行垃圾商品评论的识别,对识别效果较好的RBF核函数中的参数C和γ进行优化,使得商品评论中的垃圾评论识别的准确率提高到78.16%,召回率提高到72.18%,并选取4种不同特征组合进行对比,证明评论、评论者和被评论的商品三大特征组合的效果最好,最后通过与Logistic回归模型的对比,验证SVM对垃圾评论的识别效果明显优于其他算法。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李霄
丁晟春
关键词 SVM垃圾评论特征选择核函数商品评论信息    
Abstract:This paper analyses review spam from the perspective of the usefulness of information, selects digital camera reviews as the research object and builds the data set, then from the three aspects of review, reviewer and product chooses 11 features, uses 4 different kernel functions in SVM model to identify review spam of products, optimizes the parameters C and γ of RBF that has a better identification, which improves accuracy rate of the identification effect of review spam to 78.16% and recall rate to 72.18%. By comparing the selected 4 different combinations of features, the authors find the combination of review, reviewer and product is the best. Finally, it proves that SVM is significantly better than other algorithms compared to the Logistic Regression.
Key wordsSVM    Review spam    Feature selection    Kernel function    Product review
收稿日期: 2013-01-08     
: 

TP391

 
基金资助:

本文系国家自然科学基金项目“基于文本语义挖掘的商品评论信息可信度分析研究”(项目编号:71103085)和教育部人文社会科学研究规划基金项目“基于语义的电子商务产品主/客观信息提取研究”(项目编号:09YJA870015)的研究成果之一。

通讯作者: 丁晟春     E-mail: todingding@163.com
引用本文:   
李霄, 丁晟春. 垃圾商品评论信息的识别研究[J]. 现代图书情报技术, 2013, 29(1): 63-68.
Li Xiao, Ding Shengchun. Research on Review Spam Recognition. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2013.01.10.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.01.10
[1] 周三多,陈传明,鲁明泓,等. 管理学:原理与方法[M]. 上海:复旦大学出版社,2011:36-38. (Zhou Sanduo,Chen Chuanming,Lu Minghong,et al. Management: Theory and Method[M].Shanghai: Fudan University Press, 2011:36-38.)

[2] Jindal N, Liu B. Analyzing and Detecting Review Spam[C]. In:Proceeding of the 7th IEEE International Conference on Data Mining(ICDM'07),Omaha, Nebraska, USA.Washington, DC, USA:IEEE Computer Society,2007: 547-552.

[3] Jindal N, Liu B. Review Spam Detection[C]. In:Proceedings of the 16th International Conference on World Wide Web, Banff, Alberta, Canada. New York, NY, USA:ACM,2007: 1189-1190.

[4] Lim E P, Nguyen V A, Jindal N, et al. Detecting Product Review Spammers Using Rating Behaviors[C].In:Proceedings of the 19th ACM International Conference on Information and Knowledge Management(CIKM'10),Toronto, ON, Canada.New York, NY, USA:ACM, 2010: 930-948.

[5] Jindal N, Liu B, Lim E P. Finding a Typical Review Patterns for Detecting Opinion Spammers [R]. 2010.

[6] Jindal N, Liu B, Lim E P. Finding Unusual Review Patterns Using Unexpected Rules [C].In:Proceedings of the 19th ACM International Conference on Information and Knowledge Management(CIKM'10),Toronto, ON, Canada. New York, NY, USA:ACM, 2010: 1549-1552.

[7] Mukherjee A, Liu B, Wang J, et al. Detecting Group Review Spam[C].In:Proceedings of the 28th ACM International Conference on Information and Knowledge Management,Hyderabad, India. New York, NY, USA:ACM,2011:1123-1126.

[8] Wu G, Greene D, Smyth B, et al. Distortion as a Validation Criterion in the Identification of Suspicious Reviews[C]. In:Proceedings of the 1st Workshop on Social Media Analytics. Washington, DC, USA: ACM, 2010:10-13.

[9] 何海江. 一种适应短文本的相关测度及其应用[J]. 计算机工程,2009,35(6):88-90. (He Haijiang. Relevancy Coefficient and Its Application Adapted to Short Texts[J]. Computer Engineering,2009, 35(6):88-90.)

[10] 何海江,凌云. 由Logistic回归识别Web社区的垃圾评论[J]. 计算机工程与应用,2009,45(23): 140-143. (He Haijiang, Ling Yun. Identifying Comment Spams of Web Forums by Classifier Based Logistic Regression[J]. Computer Engineering and Applications,2009,45(23): 140-143).

[11] Bhattarai A, Rus V, Dasgupta D. Characterizing Comment Spam in the Blogosphere Through Content Analysis[C]. In: Proceedings of IEEE Symposium on Computational Intelligence in Cyber Security (CICS). IEEE Computer Society, 2009:37-44.

[12] Vapnik V N. An Overview of Statistical Learning Theory [J]. IEEE Transactions on Neural Networks,1999(10):988-999.

[13] Vapnik V N. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995: 4-80.

[14] HowNet [EB/OL]. [2012-05-10]. http://www.keenage.com/html/c_index.html.

[15] LibSVM [EB/OL].[2012-05-20].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

[16] Weka [EB/OL]. [2012-06-20].http://www.cs.waikato.ac.nz/ml/weka/.
[1] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[2] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[3] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[4] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[5] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[6] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[7] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[8] 赵杨,李齐齐,陈雨涵,曹文航. 基于在线评论情感分析的海淘APP用户满意度研究*[J]. 数据分析与知识发现, 2018, 2(11): 19-27.
[9] 操玮,李灿,贺婷婷,朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[10] 李志鹏,李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[11] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[12] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[13] 路永和,陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[14] 孟园,王洪伟. 基于文本内容特征选择的评论质量检测*[J]. 现代图书情报技术, 2016, 32(4): 40-47.
[15] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015, 31(5): 42-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn