Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
多层次数据增强的半监督中文情感分析方法
刘彤,刘琛,倪维健
(山东科技大学计算机科学与工程学院 山东  266590)
A semi-supervised Chinese sentiment analysis method based on multi-level data augmentation
Liu Tong,Liu Chen,Ni Weijian
(Department of Computer Science and Engineering, Shandong University of Science and Technology, Shandong 266590, China)
全文: PDF (705 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]针对在自然语言处理领域中高质量的标签数据较难获取的问题,本文设计了基于多层次数据增强的半监督中文情感分析方法。[方法]采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则来提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果。[结果]在三个公开情感分析数据集上进行实验,在waimai和weibo数据集上仅使用1000条有标签文档就可以分别获得超过BERT 2.3%和6.1%的性能提升。[局限]实验均在公开通用语料上进行实验,未尝试在垂直领域数据集上的效果。[结论]本文所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 情感分析半监督学习一致性正则数据增强     
Abstract

[Objective]In view of the difficulty in obtaining high-quality labeled data in the field of natural language processing, this paper designes a semi-supervised Chinese sentiment analysis method based on multi-level data augumentation. [Methods]A large number of unlabeled samples were obtained by simple data enhancement and reverse translation text enhancement techniques, and the data signals of unlabeled samples are extracted by calculating the consistency norm for unlabeled samples;The pseudo-label of the weakly enhanced sample was calculated, the supervised training signal is constructed from the strongly enhanced sample together with the pseudo-label, and the model is filtered by confidence threshold to make the modle produce prediction results with high confiendce. [Results] Experiments are conducted on three publicly availbale sentiment analysis datasets, and results show that using only 1000 labeled documents on the waimai and weibo datasets can achieve a performance improvement over BERT 2.3% and 6.1%respectively. [Limitation]The experiments were all carried out on the public general corpus, and the effect was on vertical domain datasets was not attempted. [Conclusion] The proposed method in this paper fully exploits the information of unlabeled samples, which can alleviate the problem that labeled data is not easily accessible, and has strong predictive stability.

Key words Sentiment Analysis    Semi-supervised Learning    Consistency Regularity    Data Augmentation
     出版日期: 2021-03-08
ZTFLH:  TP393,G250  
引用本文:   
刘彤, 刘琛, 倪维健. 多层次数据增强的半监督中文情感分析方法 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467. 2020.1170.
Liu Tong, Liu Chen, Ni Weijian. A semi-supervised Chinese sentiment analysis method based on multi-level data augmentation . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467. 2020.1170      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 陈果, 叶潮. 融合半监督学习与主动学习的细分领域新闻分类研究*[J]. 数据分析与知识发现, 2022, 6(4): 28-38.
[2] 商容轩, 张斌, 米加宁. 基于BRNN的政务APP评论端到端方面级情感分析方法*[J]. 数据分析与知识发现, 2022, 6(2/3): 364-375.
[3] 孙羽, 裘江南. 基于网络分析和文本挖掘的意见领袖影响力研究*[J]. 数据分析与知识发现, 2022, 6(1): 69-79.
[4] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[5] 刘彤,刘琛,倪维健. 多层次数据增强的半监督中文情感分析方法*[J]. 数据分析与知识发现, 2021, 5(5): 51-58.
[6] 王雨竹,谢珺,陈波,续欣莹. 基于跨模态上下文感知注意力的多模态情感分析 *[J]. 数据分析与知识发现, 2021, 5(4): 49-59.
[7] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[8] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[9] 余本功, 张书文. 基于BAGCNN的方面级别情感分析研究*[J]. 数据分析与知识发现, 2021, 5(12): 37-47.
[10] 韩普, 张伟, 张展鹏, 王宇欣, 方浩宇. 基于特征融合和多通道的突发公共卫生事件微博情感分析*[J]. 数据分析与知识发现, 2021, 5(11): 68-79.
[11] 吕华揆,刘政昊,钱宇星,洪旭东. 异质性财经新闻与股市关系研究*[J]. 数据分析与知识发现, 2021, 5(1): 99-111.
[12] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析 *[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[13] 姜霖,张麒麟. 基于引文细粒度情感量化的学术评价研究*[J]. 数据分析与知识发现, 2020, 4(6): 129-138.
[14] 石磊,王毅,成颖,魏瑞斌. 自然语言处理中的注意力机制研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[15] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn