数据分析与知识发现  2022, Vol. 6 Issue (11): 38-51
桂林电子科技大学商学院 桂林 541004
Identifying Useful Reviews with Improved Graph Convolutional Neural Network
Li Xuemei,Jiang Jianhong()
Commercial College, Guilin University of Electronic Technology, Guilin 541004, China
【目的】 充分建模评论中的特征观点语义偏差,提升评论有用性识别的性能。【方法】 构建一种融合组块分析和特征隶属关系的FFGCN模型进行评论有用性识别。通过组块分析获得特征和观点词块作为图上节点,同时借助多粒度特征词库融入特征词间隶属关系构图,经过图上卷积进行评论二分类。【结果】 FFGCN模型在两个数据集上的识别准确率分别为93.4%和93.9%,比基线模型最优结果分别提升0.9和1.0个百分点。【局限】 选取手机评论数据进行实验,未将模型拓展到其他产品类型验证其识别性能。【结论】 所提模型能够有效对评论文本进行建模,大大提高评论有用性识别的性能。

关键词 评论有用性组块分析特征观点对图卷积网络    

[Objective] This paper tries to utilize the semantic deviation of comments, aiming to identify the useful online reviews. [Methods] We constructed an FFGCN model integrating chunk analysis and feature membership to evaluate the comments’ usefulness. Then, we utilized chunk analysis to obtain the feature and opinion chunks as nodes on the graph. Third, with the help of multi-granularity feature thesaurus, we integrated the membership relationship between feature words into the graph. Finally, we classified the comments through convolution on the graph. [Results] The recognition accuracy of the FFGCN model on the two datasets were 93.4% and 93.9%, which were 0.9 and 1.0 percentadge point higher than the optimal results of the baseline model. [Limitations] We only examined the new model with mobile phone review data. More research is needed to evaluate the model with data sets from other fields. [Conclusions] The proposed model can effectively identify the helpful products reviews online.

Key wordsReviews Helpfulness    Chunk Analysis    Feature Opinion Pair    Graph Convolutional Network
收稿日期: 2022-02-18      出版日期: 2023-01-13
ZTFLH:  TP391  
基金资助:* 国家自然科学基金项目(71940008);教育部人文社会科学研究基金项目(17YJCZH074);桂林电子科技大学研究生教育创新计划资助项目(C21YJM00WX06)
通讯作者: 蒋建洪     E-mail:
李雪梅,蒋建洪. 基于改进图卷积神经网络的评论有用性识别*[J]. 数据分析与知识发现, 2022, 6(11): 38-51.
Li Xuemei,Jiang Jianhong. Identifying Useful Reviews with Improved Graph Convolutional Neural Network. Data Analysis and Knowledge Discovery, 2022, 6(11): 38-51.
Fig.1  模型结构
关系类型 词性抽取规则 举例 组合规则与赋予词性
ATT (n,n,ATT) <充电器,功能> (充电器功能,n)
(ns,n,ATT) <京东,物流> (京东物流,n)
(nz,n,ATT) <京东,快递> (京东快递,n)
(v,n,ATT) <拍照,功能> (拍照功能,n)
(n,v,ATT) <快递员,服务> (快递员服务,v)
ADV (nt,v,ADV) <晚上,拍照> (晚上拍照,v)
(n,v,ADV) <整体,感觉> (整体感觉,v)
VOB (n,v,VOB) <音乐,听> (听音乐,v)
Table1  特征组块的抽取和组合规则
关系类型 词性抽取规则 举例 组合规则与赋予词性
ADV (d,a,ADV) <非常,不错> (非常不错,a)
(d,v,ADV) <挺,满意> (挺满意,v)
(d,r,ADV) <不,咋样> (不咋样,a)
(m,a,ADV) <十分,好> (十分好,a)
(a,a,ADV) <好,麻烦> (好麻烦,a)
SBV+ATT (n,v,SBV)+
CMP (a,v,CMP) <快,消耗> (消耗快,a)
Table 2  观点组块的抽取和组合规则
关系类型 词性抽取规则 举例
SBV (n,a,SBV) <照相清晰度,不咋样>
(v,a,SBV) <晚上拍照,特别漂亮>
(n,v,SBV) <拍照功能,逆天>
(n,i,SBV) <外观,没得说>
(n,d,SBV) <物流,很快>
(n,z,SBV) <质量,杠杠的>
VOB (n,v,VOB) <质感,很有>
(v,v,VOB) <买,不建议>
ATT (v,n,ATT) <类型,喜欢>
Table 3  特征-观点对抽取规则
Fig.2  节点连边关系示意
粗粒度特征 细粒度特征 用于计算平均相似度的参照种子词
价格 定价 价格、价钱、价位
性价比 性价比、价格比、性比价
价保 价保、保值、降价
屏幕 显示 显示、分辨率、屏幕色彩
性质 全面屏、屏占比、防划
解锁 解锁、人脸、指纹
外观 尺寸 尺寸、手感、握持
颜值 颜值、外形、外观
配色 颜色、渐变色、色彩
网络与通话 网络 网络、上网、断网
通话 通话、语音、听筒
性能 运行 运行、死机、发热
游戏 游戏、掉帧、延迟
操控 触控、操作、反应
影音 视频、音乐、画质
功能测评 小爱、AI键、跑分
系统应用 系统、应用、MIUI
相机 镜头 镜头、焦距、超广角
模式技术 夜景、人像、微距
拍照录像 照相、像素、录像
电池 充电 充电、快充、无线充
续航 续航、电量、待机时间
硬件与配置 存储 存储、运行内存、内存
CPU CPU、骁龙、处理器
扬声器 扬声器、外放、喇叭
导航红外 导航、GPS、红外
服务 配送 配送、快递、收货
客服运营 客服、卖家、服务态度
赠品配件 赠品、赠送、钢化膜
售后 售后、维修、退货
Table 4  手机多粒度特征词
实验环境 环境配置
操作系统 Windows10
处理器 Inter(R) Xeon(R) CPU E5-2678 v3 @2.50GHz
内存 12GB
编程语言 Python3.6
深度学习框架 PyTorch
Table 5  实验环境
数据集 大小 正类 负类 平均长度
Redmi Note9 1 602 800 802 77
iPhone13 1 556 779 777 62
Table 6  数据集介绍
Epoch(迭代轮数) 50
网络层数 L 2
Optimizer(优化器) Adam
Learning_rate(初始学习率) 0.01
Dropout_rate(丢弃率) 0.5
Hidden_unit(隐藏层单元数) 200
语义相似度阈值 λ 0.75
Table 7  FFGCN参数设置
对比项 内容
评论文本 京东快递真快,包装完整无缺,开机显示挺好,拍照清晰度不错,玩游戏不挡手指……
特征组块 京东快递,开机显示,拍照清晰度,玩游戏,挡手指……
观点组块 真快,挺好,不挡 ……
Table 8  人工标注示例
组块类型 本文规则 文献[15]
特征组块 0.839 0.814
观点组块 0.914 0.764
Table 9  组块提取规则精准率
Fig.3  训练结果
数据集 类别 Precision Recall F1-score
Redmi Note9 有用类 0.931 0.937 0.934
无用类 0.938 0.932 0.935
Macro-avg 0.934 0.934 0.934
iPhone13 有用类 0.924 0.954 0.939
无用类 0.954 0.924 0.939
Macro-avg 0.939 0.939 0.939
Table 10  实验结果对比
数据集 模型 Accuracy Precision Recall F1-score
Redmi Note9 K-means 0.553 0.556 0.552 0.546
LSTM 0.809 0.863 0.808 0.802
TextGCN 0.922 0.922 0.927 0.922
SemGCN 0.925 0.925 0.927 0.925
FFGCN 0.934 0.934 0.934 0.934
iPhone13 K-means 0.521 0.528 0.524 0.504
LSTM 0.884 0.905 0.886 0.883
TextGCN 0.936 0.937 0.941 0.936
SemGCN 0.929 0.930 0.936 0.929
FFGCN 0.939 0.939 0.939 0.939
Table11  各模型实验结果对比
模型 Accuracy Precision Recall F1-score
无组块+TF-IDF 0.891 0.891 0.891 0.891
文献[15]+TF-IDF 0.876 0.876 0.878 0.876
组块+TF-IDF 0.928 0.928 0.930 0.928
无组块+SITextRank 0.925 0.925 0.925 0.925
文献[15]+SITextRank 0.892 0.892 0.893 0.892
FFGCN 0.934 0.934 0.934 0.934
Table12  分模块实验效果对比
Fig.4  不同网络层数和相似度阈值对模型的影响
