Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (11): 38-51     https://doi.org/10.11925/infotech.2096-3467.2022.0129
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于改进图卷积神经网络的评论有用性识别*
李雪梅,蒋建洪()
桂林电子科技大学商学院 桂林 541004
Identifying Useful Reviews with Improved Graph Convolutional Neural Network
Li Xuemei,Jiang Jianhong()
Commercial College, Guilin University of Electronic Technology, Guilin 541004, China
全文: PDF (1208 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 充分建模评论中的特征观点语义偏差,提升评论有用性识别的性能。【方法】 构建一种融合组块分析和特征隶属关系的FFGCN模型进行评论有用性识别。通过组块分析获得特征和观点词块作为图上节点,同时借助多粒度特征词库融入特征词间隶属关系构图,经过图上卷积进行评论二分类。【结果】 FFGCN模型在两个数据集上的识别准确率分别为93.4%和93.9%,比基线模型最优结果分别提升0.9和1.0个百分点。【局限】 选取手机评论数据进行实验,未将模型拓展到其他产品类型验证其识别性能。【结论】 所提模型能够有效对评论文本进行建模,大大提高评论有用性识别的性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李雪梅
蒋建洪
关键词 评论有用性组块分析特征观点对图卷积网络    
Abstract

[Objective] This paper tries to utilize the semantic deviation of comments, aiming to identify the useful online reviews. [Methods] We constructed an FFGCN model integrating chunk analysis and feature membership to evaluate the comments’ usefulness. Then, we utilized chunk analysis to obtain the feature and opinion chunks as nodes on the graph. Third, with the help of multi-granularity feature thesaurus, we integrated the membership relationship between feature words into the graph. Finally, we classified the comments through convolution on the graph. [Results] The recognition accuracy of the FFGCN model on the two datasets were 93.4% and 93.9%, which were 0.9 and 1.0 percentadge point higher than the optimal results of the baseline model. [Limitations] We only examined the new model with mobile phone review data. More research is needed to evaluate the model with data sets from other fields. [Conclusions] The proposed model can effectively identify the helpful products reviews online.

Key wordsReviews Helpfulness    Chunk Analysis    Feature Opinion Pair    Graph Convolutional Network
收稿日期: 2022-02-18      出版日期: 2023-01-13
ZTFLH:  TP391  
基金资助:* 国家自然科学基金项目(71940008);教育部人文社会科学研究基金项目(17YJCZH074);桂林电子科技大学研究生教育创新计划资助项目(C21YJM00WX06)
通讯作者: 蒋建洪     E-mail: jjhome@guet.edu.cn
引用本文:   
李雪梅,蒋建洪. 基于改进图卷积神经网络的评论有用性识别*[J]. 数据分析与知识发现, 2022, 6(11): 38-51.
Li Xuemei,Jiang Jianhong. Identifying Useful Reviews with Improved Graph Convolutional Neural Network. Data Analysis and Knowledge Discovery, 2022, 6(11): 38-51.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0129      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I11/38
Fig.1  模型结构
关系类型 词性抽取规则 举例 组合规则与赋予词性
ATT (n,n,ATT) <充电器,功能> (充电器功能,n)
(ns,n,ATT) <京东,物流> (京东物流,n)
(nz,n,ATT) <京东,快递> (京东快递,n)
(v,n,ATT) <拍照,功能> (拍照功能,n)
(n,v,ATT) <快递员,服务> (快递员服务,v)
ADV (nt,v,ADV) <晚上,拍照> (晚上拍照,v)
(n,v,ADV) <整体,感觉> (整体感觉,v)
VOB (n,v,VOB) <音乐,听> (听音乐,v)
Table1  特征组块的抽取和组合规则
关系类型 词性抽取规则 举例 组合规则与赋予词性
ADV (d,a,ADV) <非常,不错> (非常不错,a)
(d,v,ADV) <挺,满意> (挺满意,v)
(d,r,ADV) <不,咋样> (不咋样,a)
(m,a,ADV) <十分,好> (十分好,a)
(a,a,ADV) <好,麻烦> (好麻烦,a)
SBV+ATT (n,v,SBV)+
(q,a,ATT)
<手机,有>+
<点,长>
(有点长,a)
CMP (a,v,CMP) <快,消耗> (消耗快,a)
Table 2  观点组块的抽取和组合规则
关系类型 词性抽取规则 举例
SBV (n,a,SBV) <照相清晰度,不咋样>
(v,a,SBV) <晚上拍照,特别漂亮>
(n,v,SBV) <拍照功能,逆天>
(n,i,SBV) <外观,没得说>
(n,d,SBV) <物流,很快>
(n,z,SBV) <质量,杠杠的>
VOB (n,v,VOB) <质感,很有>
(v,v,VOB) <买,不建议>
ATT (v,n,ATT) <类型,喜欢>
Table 3  特征-观点对抽取规则
Fig.2  节点连边关系示意
(注:箭线:隶属关系;实线:依存关系;虚线:语义近似关系;红线:包含关系;D:文档节点;C_Ft:粗粒度特征词节点;F_Ft:细粒度特征词节点;B_Ft:组块特征词节点;Opp:观点词节点。)
粗粒度特征 细粒度特征 用于计算平均相似度的参照种子词
价格 定价 价格、价钱、价位
性价比 性价比、价格比、性比价
价保 价保、保值、降价
屏幕 显示 显示、分辨率、屏幕色彩
性质 全面屏、屏占比、防划
解锁 解锁、人脸、指纹
外观 尺寸 尺寸、手感、握持
颜值 颜值、外形、外观
配色 颜色、渐变色、色彩
网络与通话 网络 网络、上网、断网
通话 通话、语音、听筒
性能 运行 运行、死机、发热
游戏 游戏、掉帧、延迟
操控 触控、操作、反应
影音 视频、音乐、画质
功能测评 小爱、AI键、跑分
系统应用 系统、应用、MIUI
相机 镜头 镜头、焦距、超广角
模式技术 夜景、人像、微距
拍照录像 照相、像素、录像
电池 充电 充电、快充、无线充
续航 续航、电量、待机时间
硬件与配置 存储 存储、运行内存、内存
CPU CPU、骁龙、处理器
扬声器 扬声器、外放、喇叭
导航红外 导航、GPS、红外
服务 配送 配送、快递、收货
客服运营 客服、卖家、服务态度
赠品配件 赠品、赠送、钢化膜
售后 售后、维修、退货
Table 4  手机多粒度特征词
实验环境 环境配置
操作系统 Windows10
处理器 Inter(R) Xeon(R) CPU E5-2678 v3 @2.50GHz
显卡 NVIDIA TITAN X(Pascal)
内存 12GB
编程语言 Python3.6
深度学习框架 PyTorch
Table 5  实验环境
数据集 大小 正类 负类 平均长度
Redmi Note9 1 602 800 802 77
iPhone13 1 556 779 777 62
Table 6  数据集介绍
模型参数
Epoch(迭代轮数) 50
网络层数 L 2
Optimizer(优化器) Adam
Learning_rate(初始学习率) 0.01
Dropout_rate(丢弃率) 0.5
Hidden_unit(隐藏层单元数) 200
语义相似度阈值 λ 0.75
Table 7  FFGCN参数设置
对比项 内容
评论文本 京东快递真快,包装完整无缺,开机显示挺好,拍照清晰度不错,玩游戏不挡手指……
特征组块 京东快递,开机显示,拍照清晰度,玩游戏,挡手指……
观点组块 真快,挺好,不挡 ……
Table 8  人工标注示例
组块类型 本文规则 文献[15]
特征组块 0.839 0.814
观点组块 0.914 0.764
Table 9  组块提取规则精准率
Fig.3  训练结果
数据集 类别 Precision Recall F1-score
Redmi Note9 有用类 0.931 0.937 0.934
无用类 0.938 0.932 0.935
Macro-avg 0.934 0.934 0.934
iPhone13 有用类 0.924 0.954 0.939
无用类 0.954 0.924 0.939
Macro-avg 0.939 0.939 0.939
Table 10  实验结果对比
数据集 模型 Accuracy Precision Recall F1-score
Redmi Note9 K-means 0.553 0.556 0.552 0.546
LSTM 0.809 0.863 0.808 0.802
TextGCN 0.922 0.922 0.927 0.922
SemGCN 0.925 0.925 0.927 0.925
FFGCN 0.934 0.934 0.934 0.934
iPhone13 K-means 0.521 0.528 0.524 0.504
LSTM 0.884 0.905 0.886 0.883
TextGCN 0.936 0.937 0.941 0.936
SemGCN 0.929 0.930 0.936 0.929
FFGCN 0.939 0.939 0.939 0.939
Table11  各模型实验结果对比
模型 Accuracy Precision Recall F1-score
无组块+TF-IDF 0.891 0.891 0.891 0.891
文献[15]+TF-IDF 0.876 0.876 0.878 0.876
组块+TF-IDF 0.928 0.928 0.930 0.928
无组块+SITextRank 0.925 0.925 0.925 0.925
文献[15]+SITextRank 0.892 0.892 0.893 0.892
FFGCN 0.934 0.934 0.934 0.934
Table12  分模块实验效果对比
Fig.4  不同网络层数和相似度阈值对模型的影响
[1] Hu N, Pavlou P A, Zhang J. Can Online Reviews Reveal a Product’s True Quality? Empirical Findings and Analytical Modeling of Online Word-of-Mouth Communication[C]// Proceedings of the 7th ACM Conference on Electronic Commerce. 2006: 324-330.
[2] 单晓红, 张晓月, 刘晓燕, 等. 在线产品评论有用性识别方法研究[J]. 北京工业大学学报(社会科学版), 2018, 18(5): 73-82.
[2] (Shan Xiaohong, Zhang Xiaoyue, Liu Xiaoyan, et al. Identification Method Research on the Usefulness of Online Product Review[J]. Journal of Beijing University of Technology(Social Sciences Edition), 2018, 18(5): 73-82.)
[3] 王亚妮, 王君, 姚唐, 等. 什么样的评论更有用? 基于ELM的“Meta分析”[J]. 管理评论, 2021, 33(5): 246-256.
[3] (Wang Yani, Wang Jun, Yao Tang, et al. What Makes a Helpful Review? A “Meta-Analysis” Based on Elaboration Likelihood Model[J]. Management Review, 2021, 33(5): 246-256.)
[4] Fresneda J E, Gefen D. Gazing at the Stars is Not Enough, Look at the Specific Word Entropy, Too![J]. Information & Management, 2020, 57(8): 103388.
doi: 10.1016/j.im.2020.103388
[5] Yang S Q, Zhou C M, Chen Y G. Do Topic Consistency and Linguistic Style Similarity Affect Online Review Helpfulness? An Elaboration Likelihood Model Perspective[J]. Information Processing & Management, 2021, 58(3): 102521.
doi: 10.1016/j.ipm.2021.102521
[6] 张艳丰, 李贺, 彭丽徽, 等. 基于模糊神经网络的在线评论效用分类过滤模型研究[J]. 情报科学, 2017, 35(5): 94-99.
[6] (Zhang Yanfeng, Li He, Peng Lihui, et al. Research on Online Reviews Utility Model Based on Fuzzy Neural Network[J]. Information Science, 2017, 35(5): 94-99.)
[7] Du J H, Rong J, Wang H, et al. Neighbor-Aware Review Helpfulness Prediction[J]. Decision Support Systems, 2021, 148: 113581.
doi: 10.1016/j.dss.2021.113581
[8] 马超, 李纲, 陈思菁, 等. 基于多模态数据语义融合的旅游在线评论有用性识别研究[J]. 情报学报, 2020, 39(2): 199-207.
[8] (Ma Chao, Li Gang, Chen Sijing, et al. Research on Usefulness Recognition of Tourism Online Reviews Based on Multimodal Data Semantic Fusion[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(2): 199-207.)
[9] Mitra S, Jenamani M. Helpfulness of Online Consumer Reviews: A Multi-Perspective Approach[J]. Information Processing & Management, 2021, 58(3): 102538.
doi: 10.1016/j.ipm.2021.102538
[10] 张晓丹. 改进的图神经网络文本分类模型应用研究——以NSTL科技期刊文献分类为例[J]. 情报杂志, 2021, 40(1): 184-188.
[10] (Zhang Xiaodan. The Application of Improved Graph Convolutional Neural Network in Big Data Classification of Scientific and Technological Documents[J]. Journal of Intelligence, 2021, 40(1): 184-188.)
[11] 周泽聿, 王昊, 赵梓博, 等. 融合关联信息的GCN文本分类模型构建及其应用研究[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[11] (Zhou Zeyu, Wang Hao, Zhao Zibo, et al. Construction and Application of GCN Model for Text Classification with Associated Information[J]. Data Analysis and Knowledge Discovery, 2021, 5(9): 31-41.)
[12] Yao L, Mao C S, Luo Y. Graph Convolutional Networks for Text Classification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 7370-7377.
doi: 10.1609/aaai.v33i01.33017370
[13] 郑诚, 董春阳, 黄夏炎. 基于BTM图卷积网络的短文本分类方法[J]. 计算机工程与应用, 2021, 57(4): 155-160.
doi: 10.3778/j.issn.1002-8331.1912-0051
[13] (Zheng Cheng, Dong Chunyang, Huang Xiayan. Short Text Classification Method Based on BTM Graph Convolutional Network[J]. Computer Engineering and Applications, 2021, 57(4): 155-160.)
doi: 10.3778/j.issn.1002-8331.1912-0051
[14] 刘臣, 韩林, 李丹丹, 等. 基于汉语组块产品特征——观点对提取与情感分析研究[J]. 计算机应用研究, 2017, 34(10): 2942-2945.
[14] (Liu Chen, Han Lin, Li Dandan, et al. Research of Product Feature-Opinion Extraction and Sentiment Analysis Based on Chinese Chunk Parsing[J]. Application Research of Computers, 2017, 34(10): 2942-2945.)
[15] 王忠群, 吴东胜, 蒋胜, 等. 一种基于主流特征观点对的评论可信性排序研究[J]. 数据分析与知识发现, 2017, 1(10): 32-42.
[15] (Wang Zhongqun, Wu Dongsheng, Jiang Sheng, et al. Ranking Credibility of Online Product Reviews Based on Feature-Opinion Pair[J]. Data Analysis and Knowledge Discovery, 2017, 1(10): 32-42.)
[16] 郝玫, 马建峰. 基于特征观点对语义匹配的产品评论可信度研究[J]. 现代情报, 2019, 39(6): 102-110.
doi: 10.3969/j.issn.1008-0821.2019.06.011
[16] (Hao Mei, Ma Jianfeng. Research on Product Reviews Credibility Based on Semantic Matching of Feature Opinion Pairs[J]. Journal of Modern Information, 2019, 39(6): 102-110.)
doi: 10.3969/j.issn.1008-0821.2019.06.011
[17] 刘海涛. 依存语法的理论与实践[M]. 北京: 科学出版社, 2009.
[17] (Liu Haitao. Dependency Grammar from Theory to Practice[M]. Beijing: Science Press, 2009.)
[18] 周知, 方正东. 融合依存句法与产品特征库的用户观点识别研究[J]. 情报理论与实践, 2021, 44(7): 111-117.
[18] (Zhou Zhi, Fang Zhengdong. Research on User Opinion Recognition Based on Dependency Syntax and Product Feature Thesaurus[J]. Information Studies: Theory & Application, 2021, 44(7): 111-117.)
[19] 曹东伟, 李邵梅, 陈鸿昶. 基于GCN的虚假评论检测方法[J]. 计算机工程与应用, 2022, 58(3): 181-186.
doi: 10.3778/j.issn.1002-8331.2008-0125
[19] (Cao Dongwei, Li Shaomei, Chen Hongchang. Fake Reviews Detection Method Based on GCN[J]. Computer Engineering and Applications, 2022, 58(3): 181-186.)
doi: 10.3778/j.issn.1002-8331.2008-0125
[20] 张虎, 柏萍. 融入句子中远距离词语依赖的图卷积短文本分类方法[J]. 计算机科学, 2022, 49(2): 279-284.
doi: 10.11896/jsjkx.201200062
[20] (Zhang Hu, Bai Ping. Graph Convolutional Networks with Long-Distance Words Dependency in Sentences for Short Text Classification[J]. Computer Science, 2022, 49(2): 279-284.)
doi: 10.11896/jsjkx.201200062
[21] Siering M, Muntermann J, Rajagopalan B. Explaining and Predicting Online Review Helpfulness: The Role of Content and Reviewer-Related Signals[J]. Decision Support Systems, 2018, 108: 1-12.
doi: 10.1016/j.dss.2018.01.004
[22] 曹学飞, 李济洪, 王瑞波. 基于分布的中文词表示研究[J]. 计算机应用研究, 2019, 36(3): 687-690.
[22] (Cao Xuefei, Li Jihong, Wang Ruibo. Study of Distributional Representation of Chinese Words[J]. Application Research of Computers, 2019, 36(3): 687-690.)
[23] 杨延娇, 赵国涛, 袁振强, 等. 融合语义特征的TextRank关键词抽取方法[J]. 计算机工程, 2021, 47(10): 82-88.
[23] (Yang Yanjiao, Zhao Guotao, Yuan Zhenqiang, et al. TextRank-Based Keyword Extraction Method Integrating Semantic Features[J]. Computer Engineering, 2021, 47(10): 82-88.)
[24] 周知, 李名子, 崔旭. 基于领域情感词典的用户生成内容有用性评价研究——以豆瓣读书为例[J]. 情报理论与实践, 2022, 45(1): 86-92.
[24] (Zhou Zhi, Li Mingzi, Cui Xu. Research on Helpfulness Evaluation of User Generate Content Based on Domain Sentiment Lexicon: Taking Douban Reading as an Example[J]. Information Studies: Theory & Application, 2022, 45(1): 86-92.)
[25] 张婧, 周怡欣, 胡涵, 等. 基于知识采纳模型和多层感知机神经网络的评论有用性识别研究[J]. 中国管理科学, 2022, 30(4): 264-274.
[25] (Zhang Jing, Zhou Yixin, Hu Han, et al. Identification of Usefulness for Online Reviews Based on Knowledge Adoption Model and Multilayer Perceptron Neural Network[J]. Chinese Journal of Management Science, 2022, 30(4): 264-274.)
[26] 聂卉. 基于内容特征的评论效用排名预测——以豆瓣书评为例[J]. 管理评论, 2021, 33(2): 176-186.
[26] (Nie Hui. Content-Specific Ranking Prediction for Online Reviews—Case of Douban Book Reviews[J]. Management Review, 2021, 33(2): 176-186.)
[27] 田依林, 黎盈盈, 滕广青. 基于商品类型的在线负面评论有用性影响因素比较研究[J]. 现代情报, 2019, 39(8): 111-119.
doi: 10.3969/j.issn.1008-0821.2019.08.014
[27] (Tian Yilin, Li Yingying, Teng Guangqing. Comparative Study on the Influencing Factors of the Helpfulness of Online Negative Reviews Based on Commodity Types[J]. Journal of Modern Information, 2019, 39(8): 111-119.)
doi: 10.3969/j.issn.1008-0821.2019.08.014
[28] 金晓玲, 周中允, 尹梦杰, 等. 在线用户点赞与评论行为的产生机理差异研究——以医疗健康类企业微信公众号为例[J]. 管理科学学报, 2021, 24(4): 54-68.
[28] (Jin Xiaoling, Zhou Zhongyun, Yin Mengjie, et al. Understanding Antecedent Differences Across Online Users’ Like and Comment Behaviors: The Case of Healthcare Enterprise WeChat Public Platform[J]. Journal of Management Sciences in China, 2021, 24(4): 54-68.)
[29] 杨东红, 吴邦安, 孙晓春. 基于机器学习的网络评论信息有用性预测模型研究[J]. 情报科学, 2019, 37(12): 34-39.
[29] (Yang Donghong, Wu Bangan, Sun Xiaochun. Research on the Helpfulness Prediction Model of Online Review Information Based on Machine Learning[J]. Information Science, 2019, 37(12): 34-39.)
[30] 景丽, 何婷婷. 基于改进TF-IDF和ABLCNN的中文文本分类模型[J]. 计算机科学, 2021, 48(S2): 170-175.
[30] (Jing Li, He Tingting. Chinese Text Classification Model Based on Improved TF-IDF and ABLCNN[J]. Computer Science, 2021, 48(S2): 170-175.)
[31] MacQueen J B. Some Methods for Classification and Analysis of Multivariate Observations[J]. Berkeley Symposium on Mathematical Statistics and Probability, 1967, 1(14): 281-297.
[32] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
doi: 10.1162/neco.1997.9.8.1735 pmid: 9377276
[1] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[2] 任秋彤, 王昊, 熊欣, 范涛. 融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(12): 123-136.
[3] 吴江, 刘弯弯. 什么样的评论更容易获得有用性投票*——以亚马逊网站研究为例[J]. 数据分析与知识发现, 2017, 1(9): 16-27.
[4] 王忠群, 吴东胜, 蒋胜, 皇苏斌. 一种基于主流特征观点对的评论可信性排序研究*[J]. 数据分析与知识发现, 2017, 1(10): 32-42.
[5] 杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
[6] 聂卉, 王佳佳. 产品评论垃圾识别研究综述[J]. 现代图书情报技术, 2014, 30(2): 63-71.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn