Data Analysis and Knowledge Discovery  2021, Vol. 5 Issue (6): 1-13    DOI: 10.11925/infotech.2096-3467.2021.0040
Review of Methods and Applications of Text Sentiment Analysis
Zhong Jiawa1,2,Liu Wei1(),Wang Sili1,Yang Heng1
1Northwest Institute of Eco-Environment and Resources, Chinese Academy of Sciences, Lanzhou 730000, China
2School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
[Objective] This paper reviews literature on text sentiment analysis, aiming to summarize its technical development trends and applications. [Coverage] We searched relevant literature from the Web of Science Core Collection and CNKI database on the concepts, methods and techniques of sentiment analysis. A total of 69 papers were retrieved from 2011 to 2020 and then analyzed. [Methods] We summarized the main models and applications of text sentiment analysis from the dimensions of time and theme. We also discussed the fields needs to be improved. [Results] There were mainly three methods for text sentiment analysis, which were based on sentiment lexicon and rules, machine learning, as well as deep learning. Each method has advantages and disadvantages. The methods based on multi-strategy hybrid became more popular in recent years. [Limitations] We reviewed previous literature on text sentiment analysis from the perspective of macro-technical methods. More research is needed to compare and elaborate the technical details of sentiment analysis algorithms. [Conclusions] The development of artificial intelligence technology (big data and deep learning) will further improve text sentiment analysis, and benefit business decision making applications.

Key wordsSentiment Analysis      Sentiment Lexicon      Machine Learning      Deep Learning     
Received: 13 January 2021      Published: 19 March 2021
ZTFLH:  TP391  
Fund:National Key Research and Development Project of China(2018YFC1509007);Young Scholars in the West Program Class A of the Light of the West(Y9AX011001)
Annual Number of Papers from 2011 to 2020
Terms Co-occurrence Network of Sentiment Analysis
方法 英文文献 中文文献
基于情感词典与规则的方法 情感词典、语义相似度、关联规则等 领域情感词典、依存句法分析、语义规则、语义相似度、本体等
基于机器学习的方法 支持向量机、朴素贝叶斯、逻辑回归、LDA主题模型、随机森林、决策树、遗传算法、集成学习、最大熵等 支持向量机、LDA主题模型、条件随机场、朴素贝叶斯、协同过滤、集成学习、随机森林、最大熵、K-Means等
基于深度学习的方法 卷积神经网络、长短期记忆网络、注意力机制、循环神经网络、双向长短期记忆网络等 卷积神经网络、注意力机制、长短期记忆网络、双向长短期记忆网络、循环神经网络、递归神经网络、生成对抗网络等
Models of Sentiment Analysis
应用 英文文献 中文文献
社交媒体 Twitter、微博、Facebook、公众意见、预测、危机、政治、健康、疾病、讽刺检测 微博、Twitter、舆情分析、预测、观点分析
在线评论 商品评论、消费者评论、用户评论、电影评论、酒店评论、旅游评论 商品评论、用户评论、电影评论、弹幕
商业投资 股票市场、股票价格、投资者情绪 股票预测、股票市场、投资者情绪、行为金融
其他 新闻文章、阿拉伯语、迁移学习、跨领域、跨语言 新闻、维吾尔语、新词发现、迁移学习、跨领域、多模态、跨语言
Applications in Sentiment Analysis
作者 基础词典 其他词典 规则 数据来源 情感极性分类效果
P/% R/% F1/%
董丽丽等[25] HowNet 网络情感词、未登录情感词、否定词、程度副词、关联词 ZOL中的笔记本电脑评论 75.44 81.21 78.22
Asghar等[26] SentiWordNet 表情符号、修饰语、否定词、领域术语 酒店评论数据 82.50 83.50 82.99
Han等[27] SentiWordNet 领域情感词 IMDB数据集 76.96 76.81 76.87
李晨等[28] HowNet、NTUSD、哈工大同义词词林 转折归总词、程度副词、否定词 新闻、博客和论坛数据 76.00 81.00 78.42
胡召亚等[29] 大连理工情感词汇本体库 表情符号 句型规则、句间关系规则 公开的微博情感分析语料 70.70 68.30 69.40
吴杰胜等[30] HowNet、NTUSD、大连理工情感词汇本体库 领域情感词、否定词、双重否定词、程度副词、关系连词、表情符 句型规则、句间关系规则 与“短视频整顿”话题相关的微博文本 82.10 82.70 83.40
王志涛等[31] HowNet、NTUSD 新词、修饰词表、表情符词表 句型规则、句间关系规则、表情符规则、词语多元组规则 新浪微博文本数据 68.30 67.10 67.70
The Comparison of Models Based on Sentiment Lexicons and Rules
作者 模型 算法特点 数据来源 情感极性分类效果
P/% R/% F1/%
谢丽星等[38] SVM 用层次结构,将情感分析过程分为两大策略、4种方法 新浪中的影视、名人和产品领域 67.28 - -
刘宝芹等[39] NB 建立三层树状情绪分类结构 不同话题的微博文本 70.60 65.30 67.80
Wawre等[40] NB 对于大规模训练集,朴素贝叶斯方法更好 IMDB数据集 66.77 62.00 64.29
Kaur等[42] KNN N-gram用于特征提取,特征提取与分类技术相结合 电子商务网站的评论 82.00 81.50 81.75
徐建忠等[43] SVM 设计特征向量,采用有监督的机器学习算法进行分类 航天事件相关的微博文本 80.30 78.50 79.40
李锐等[44] SVM 对词向量进行加权,解决文本特征稀疏的问题 公开的微博情感分析语料 89.35 89.35 89.35
Rathor等[45] SVM SVM的学习精度高 公开的Amazon评论数据集 81.20 - -
The Comparison of Models Based on Machine Learning
作者 模型 算法特点 数据来源 情感极性分类效果
P/% R/% F1/%
孙敏等[49] ATT+BGRU BGRU提取上下文信息,注意力机制调整特征权重 IMDB数据集 91.21 91.24 91.23
刘思琴等[52] BERT+ATT+BiLSTM BERT能获取包含上下文语义信息的词向量,注意力机制分配权重 SST二分类数据集 83.68 96.71 89.72
方英兰等[53] BERT+ATT+BiLSTM BERT模型可以获取更完整的文本语义特征 商品评价数据 93.48 93.73 93.60
曾子明等[54] ATT+BiLSTM 用双重注意力模型学习各级特征权重分布,从词级和句子级来分析整体文本情感 与“红黄蓝事件”有关的微博文本 97.79 97.01 97.39
苏小英等[55] CNN 双卷积层结构可以从任意长度语句中抽取特征 COAE2013和COAE 2014发布的标注数据 70.10 71.50 70.79
张英等[56] BiLSTM+RNN BiLSTM进行情感要素的抽取时效果更好 COAE2014发布的微博数据 89.80 - -
孙晓等[57] DBN 深度信念网络解决了文本特征稀疏的问题 COAE2014发布的数据集 79.45 81.00 79.55
Zeng等[58] PosATT +LSTM 同时考虑了上下文词和上下文位置关系 SemEval2014发布的餐厅数据集 79.40 - -
Heikal等[59] CNN+LSTM 不依赖特征提取,注重词向量的训练 ASTD数据集 - - 64.46
冯兴杰等[61] ATT+CNN 减少了人工干预和对情感词典的依赖 酒店评论语料(ChnSentiCorp) 87.27 87.81 87.19
The Comparison of Models Based on Deep Learning
作者 模型 算法特点 数据来源 情感极性分类效果
P/% R/% F1/%
Mukwazvure等[65] 情感词典+SVM 利用领域情感词典和意见规则可以获得更准确的情感标签 技术相关的评论文本 80.00 89.00 84.26
Rohini等[66] 情感词典+决策树 定义了领域特征实体的属性,有助于提取主观词 卡纳达语电影网站评论 78.00 79.00 78.50
Lu等[63] 情感词典+SVM 构建多部情感词典计算情感词的权值 《我不是药神》的豆瓣电影评论 69.80 - -
张凌等[67] 情感词典+SVM 领域负面词对领域微博识别更有效 健康主题的微博文本 74.10 71.00 72.40
李慧等[68] 新词词典+CNN 识别网络新词提高分词准确率,构建评论的特征矩阵 酒店评论语料(ChnSentiCorp) 84.50 85.90 85.20
何雪琴等[14] 情感词典+句法规则+CNN 由于旅游文本更冗长复杂,采用词典来挖掘句法规则,混合模型更有效 携程网上的旅游评论 94.30 94.40 94.00
Chen等[16] 情感词典+BiLSTM 多个情感词典融合,双层BiLSTM网络分类效果最好 PTT上的军事生活评论 - - 88.41
The Comparison of Models of Multi-Strategy Hybrid
方法 模型 应用场景 优点 缺点
基于情感词典与规则的方法 情感词典 股票市场[19] 自动生成领域情感词典;扩展词库提高了分类性能 扩展词库存在误报率;没有考虑标签的情感
情感词典+规则集 网络新闻[28] 考虑了上下文联系;结合新闻文本特点定义多种语义规则 没有消除词语歧义;篇章情感通过简单的加权获得
基于传统机器学习的方法 Naive Bayes 政治选举[9] 解决了零计数问题;朴素贝叶斯克服了词汇量不足问题 Unigram词典的可用性存在挑战;要创建单字格情感词典
SVM 微博文本[44] TF-IDF计算词汇权重;SVM提高了分类准确率 没有考虑文本相似度
LDA+协同过滤 商品评论[37] 扩展向量维度有利于解决数据稀疏问题,提高推荐精确度 词对提取准确率不高;属性面评分预测计算过程复杂
基于深度学习的方法 CNN+注意力机制 酒店评论[61] 减少对人工构造特征和情感词典的依赖 没有考虑图文信息
BiLSTM+注意力机制 公共安全[54] 关注文本分层结构;多层粒度分析更精确 直接剔除了非文本表情符号;粒度方面没有更加细化
BGRU+注意力机制 电影评论[49] 加快训练速度;有效获取上下文语义信息与相关联的特征 不适用于数据量过大的数据集;GRU的并行能力较弱
多策略混合的方法 情感词典+SVM 电影评论[63] 实现词典扩充;带情感标注的数据使模型训练更加准确 没有考虑文本间的语义规则以及句间规则
句法规则+CNN 旅游评论[14] 降低了文本复杂度和误分率;CNN降低了过拟合风险 数据集的正负极评论分布不均衡导致模型的AUC值较低
情感词典+BiLSTM 论坛评论[16] 扩展情感词典;BiLSTM网络和激活函数提高分类精确度 提取情感词、构建情感词典存在难度;没有考虑中性文本
The Advantages and Disadvantages of Techniques and Models in Applications
