数据分析与知识发现  2024, Vol. 8 Issue (6): 69-81
1湖南工商大学计算机学院 长沙 410205
2湖南工商大学前沿交叉学院 长沙 410205
Research on Text Sentiment Semantic Optimization Method Based on Supervised Contrastive Learning
Xiong Shuchu1,2,Li Xuan1(),Wu Jiani1,Zhou Zhaohong1,Meng Han2
1School of Computer Science, Hunan University of Technology and Business,Changsha 410205, China
2School of Frontier Crossover Studies, Hunan University of Technology and Business,Changsha 410205, China
[Objective] This study aims to solve problems such as text feature extraction bias and difficult separation of ambiguous semantics caused by the unique expressions and semantic drift phenomenon in Chinese. [Methods] This paper proposes a supervised contrastive learning semantic optimization method, which first uses a pre-trained model to generate semantic vectors, then designs a supervised joint self-supervised method to construct contrastive sample pairs, and finally constructs a supervised contrastive loss for semantic space measurement and optimization. [Results] On the ChnSentiCorp dataset, the five mainstream neural network models optimized by this method achieved F1 value improvements of 2.77%-3.82%. [Limitations] Due to limited hardware resources, a larger number of contrastive learning sample pairs were not constructed. [Conclusions] The semantic optimization method can effectively solve problems such as text feature extraction bias and difficult separation of ambiguous semantics, and provide new research ideas for text sentiment analysis tasks.

Key wordsText Sentiment Analysis    Supervised Learning    Contrastive Learning    Representation Learning    Semantic Space Optimization
收稿日期: 2023-04-11      出版日期: 2024-04-18
ZTFLH:  TP391  
通讯作者: 李轩,ORCID:0000-0001-9926-3860,。   
熊曙初, 李轩, 吴佳妮, 周赵宏, 孟晗. 基于有监督对比学习的文本情感语义优化方法研究*[J]. 数据分析与知识发现, 2024, 8(6): 69-81.
Xiong Shuchu, Li Xuan, Wu Jiani, Zhou Zhaohong, Meng Han. Research on Text Sentiment Semantic Optimization Method Based on Supervised Contrastive Learning. Data Analysis and Knowledge Discovery, 2024, 8(6): 69-81.
Fig.1  有监督对比学习语义优化研究框架
Fig.2  有监督对比学习文本情感语义优化方法
text label
我今天真的很开心。 1
栓Q!这本书不好看! 0
Table 1  文本情感标注示例
Fig.3  BERT模型编码部分结构
数据集 样本数
训练集 9 600
验证集 1 200
测试集 1 200
Table 2  数据集划分情况
数据集 积极 消极
训练集 4 799 4 801
验证集 593 607
测试集 608 592
Table 3  文本标签信息
参数名称 参数值
预训练模型层数 12
预训练模型隐藏层大小 768
Batch Size 4
评估步长 500
样本数量 9 600
批量大小 4
训练轮次 5
学习率 1e-5
温度系数 τ 0.05
Table 4  实验1参数设置
Fig.4  向量空间优化损失
参数名称 参数值
预训练模型层数 12
预训练模型隐藏层大小 768
MLP网络层数 1
MLP隐藏层大小 768
评估步长 30
训练样本数量 9 600
验证样本数量 1 200
测试样本数量 1 200
Batch Size 64
Table 5  实验2参数设置
Fig.5  情感分析模型训练损失
训练轮数 未优化模型准确率/% 已优化模型准确率/%
1 77.67 94.25
2 80.67 94.42
3 80.00 94.42
Table6  训练时分类准确率
模型 准确率/%
未优化模型 79.93
已优化模型 94.17
Table7  训练后分类准确率
参数名称 参数值
预训练模型层数 12
预训练模型隐藏层大小 768
MLP网络层数 1
TextCNN卷积核大小 2,3,4
LSTM网络层数 1
LSTM隐藏层大小 200
BiLSTM网络层数 1
BiLSTM隐藏层大小 200
GRU网络层数 1
GRU隐藏层大小 200
Batch Size 64
Table 8  实验3参数设置
神经网络模型 精确率 召回率 F1值
优化前/% 提升值/百分点 优化前/% 提升值/百分点 优化前/% 提升值/百分点
BERT-TextCNN 90.58 4.00 91.94 2.46 90.82 3.82
BERT-LSTM 91.16 3.42 92.59 1.65 91.39 3.24
BERT-BiLSTM 91.50 3.08 92.76 1.65 91.70 2.94
BERT-MLP 91.66 2.92 92.92 1.32 91.86 2.77
BERT-GRU 91.66 3.01 93.42 0.99 91.90 2.82
Table 9  评价指标提升效果
Fig.6  各类神经网络模型训练损失对比
