基于多特征融合的中文文本分类研究*

doi:10.11925/infotech.2096-3467.2021.0228

基于多特征融合的中文文本分类研究^*

王艳¹, 王胡燕^,^,², 余本功²^,³

¹安徽农业大学经济技术学院合肥 231200

²合肥工业大学管理学院合肥 230009

³合肥工业大学过程优化与智能决策教育部重点实验室合肥 230009

Chinese Text Classification with Feature Fusion

Wang Yan¹, Wang Huyan^,^,², Yu Bengong²^,³

¹Economic and Technical College, Anhui Agricultural University, Hefei 231200, China

²School of Management, Hefei University of Technology, Hefei 230009, China

³Key Laboratory of Process Optimization & Intelligent Decision-Making, Ministry of Education, Hefei University of Technology, Hefei 230009, China

通讯作者: 王胡燕,ORCID：0000-0001-8267-6183,E-mail：1115419302@qq.com。

收稿日期: 2021-03-8 修回日期: 2021-06-19

基金资助:

*国家自然科学基金项目(71671057)

Corresponding authors: Wang Huyan,ORCID：0000-0001-8267-6183,E-mail：1115419302@qq.com.

Received: 2021-03-8 Revised: 2021-06-19

Fund supported:

National Natural Science Foundation of China(71671057)

摘要

【目的】 通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】 多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签。【结果】 在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比其他分类模型准确率至少提升了7个百分点。【局限】 实验数据数量较少,未在更多的数据集上进行验证。【结论】 所提方法提升了模型的语义表征能力,是一种有效的文本分类模型,为企业进行高效文本分类提供了有效支持。

关键词： 词性标记; 词级别特征; 文本分类; 拼音字符特征; 汉字字符特征

Abstract

[Objective] This paper proposes a new classification model for Chinese texts, aiming to address the issues of weak structure, spelling errors or homonyms in the texts. [Methods] We constructed a multi-feature fusion method based on the traditional fusion features model for text classification. Then, we combined word level features, part of speech feature extension, the Chinese character features and the Pinyin letters to create multi-feature semantic representation. Third, we introduced the new multi-semantic characteristics into the BiGRU to obtain the context semantics, which were processed with the multi-channel CNN to generate the main features. Finally, we merged these features for the softmax layer to finish the classification tasks, and predicted the required category labels. [Results] The accuracy of our multi-feature fusion model reached 83.3% and 91.1% with two datasets, which was 7% higher than the existing model. [Limitations] More research is needed to examine the model with larger datasets. [Conclusions] The proposed model could effectively finish the Chinese text classification tasks.

Keywords： Part of Speech Tag; Word Level Characteristics; Text Classification; Pinyin Character Features; Chinese Character Features

PDF (1099KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(10): 1-14 doi:10.11925/infotech.2096-3467.2021.0228

Wang Yan, Wang Huyan, Yu Bengong. Chinese Text Classification with Feature Fusion[J]. Data Analysis and Knowledge Discovery, 2021, 5(10): 1-14 doi:10.11925/infotech.2096-3467.2021.0228

1 引言

随着移动互联网和社交网络的蓬勃发展,用户投诉、在线评论等在线文本信息越来越多,用户和企业可以对这些信息进行有效挖掘,及时发现数据中潜在的商业价值和用户的需求。如何对这些数据进行有效挖掘,对于广大企业而言显得尤为重要。

文本分类作为自然语言处理中的基础任务之一,在垃圾邮件过滤、情感分析、问答系统、信息检索等领域起着极其重要的作用。目前,文本分类任务中流行的方法主要有两类：基于传统机器学习的方法和基于深度学习的方法。

基于传统机器学习的方法中,文本分类方法致力于特征工程和多种机器学习分类器^[1]的使用。在机器学习的特征获取阶段,由于词袋法方便简单,易于使用,很多学者使用词袋法获取关键语义特征,但它没有考虑到关键特征词之间的语义顺序信息。为了弥补这一缺陷,方秋莲等^[2]通过添加n-gram或短语获取单词顺序信息。在机器学习的分类阶段,线性分类器被广泛使用,如朴素贝叶斯等。虽然在机器学习分类任务中,很多更复杂的特征被设计用来捕获更深层的语义信息,但是仍然无法有效解决数据稀疏问题,严重影响了模型的分类效果。

另一种高效的文本分类方法是基于深度学习的方法。传统机器学习方法很大程度上依赖于人工特征构建,这将消耗大量的人力和时间成本,人为因素干扰会造成特征噪声。深度学习方法有效地解决了这些问题,被广泛用于自然语言处理中。在深度学习文本分类任务中,很多学者在特征获取阶段采用词嵌入（Word Embedding）技术避免人工设计特征,有效捕捉词汇隐藏的语义和语法特征。现阶段词嵌入技术已经和深度学习紧密结合,这为文本分类的研究提供了新的思路。

而在文本分类中,中文文本存在特征稀疏、上下文依赖性强等特点,在进行处理的过程中总会丢失较多的语义特征,特征获取不够全面。同时,在中文文本中还存在由于拼写错误、同音词等对分类效果所造成的影响,如何有效地获取特征、提高模型的准确率,是中文文本分类研究所面临的一个挑战。为了解决中文文本分类中存在的这些问题,本文提出一种多特征融合的文本分类模型。在词向量的基础上结合拼音字符特征,缓解拼写错误所带来的影响,并加入词性标记和汉字字符特征作为特征补充以丰富语义信息,以便深度学习模型获取更全面的语义信息。

2 相关工作

随着深度学习的不断发展,与传统的自然语言处理方法相比,深度学习算法在自然语言处理任务中取得了不错的效果。在文本分类任务中,最受欢迎的深度学习方法主要包括：卷积神经网络（Convolutional Neural Network,CNN）和循环神经网络（Recurrent Neural Network,RNN）。

卷积神经网络（CNN）是一个典型的空间上的深度神经网络,具有优异的特征自抽取能力,能够显著降低文本分类中人工抽取特征的难度。很多学者在CNN的基础上进行了改进,并且可以达到预期的令人满意的性能。Kim^[3]利用不同的滤波器获取不同层面的语义信息,并利用多个卷积层获取深层的语义信息,与单层的卷积相比,模型效果得到显著提升。Kalchbrenner等^[4]提出一种动态卷积神经网络（Dynamic Convolutional Neural Network,DCNN）模型,采用动态（k-Max）池化获取句子语义特征,模型在问题和情感分类方面取得了不错的效果。Johnson等^[5]提出一种词级别的深层卷积神经网络模型（Deep Pyramid Convolutional Neural Networks,DPCNN）,能够在有效获取多层次语义特征的基础上,有效获取文本中的长期依赖信息。

循环神经网络（RNN）可以有效地学习近距离的语义特征,但存在梯度消失或梯度弥散问题。因此,RNN出现多个变种循环神经网络模型,如长短时记忆网络（Long Short-Term Memory,LSTM）。在问题分类任务中,LSTM^[6]有效解决了RNN梯度回传过程中面临的消失和爆炸的问题,进一步优化了深度模型。虽然LSTM可以提取长距离的上下文语义特征,但结构复杂,时间代价大。针对CNN和LSTM自身存在的不足,王海涛等^[7]将多层的CNN与LSTM相结合进行优势互补。门控循环单元（Gated Recurrent Unit,GRU）网络结构相对LSTM而言更简单^[8],能有效地提高模型训练时间。双向门限循环单元（BiGRU）^[9]通过双向GRU充分地利用上下文信息,记忆当前单词并实时更新这个时刻之前的所有单词的信息,基于序列从而更好地预测。为了提升模型的性能,郑诚等^[10]将CNN与BiGRU相结合进行特征获取,有效缓解了特征丢失的问题。

在文本分类任务中,很多学者将深度学习与词嵌入技术相结合。词嵌入方法中最流行的方法是Word2Vec^[11,12]。Word2Vec是一种基于预测的词向量模型,有CBOW（Continuous Bag-of-Word）和Skip-Gram两种训练模式。依据文本粒度粗细的划分,词嵌入分为词语级别嵌入和字符级嵌入两种。在此基础上,很多学者结合深度学习对文本特征从词级别和字符级别进行了深度拓展。对于词级别特征扩展,为了提高文本分类的准确率,文献[3,4]通过词级别特征与深度学习模型相结合获取文本的抽象语义特征,准确率得到大幅度提升。陈钊等^[13]结合卷积神经网络和传统词语情感序列特征,通过对文本中词语进行抽象表示获得了更高的分类准确率。王海涛等^[7]使用词嵌入技术将文本进行向量表示,并输入改进的MLCNN（Merge-LSTM-CNN）中,准确率得到大幅度提升。在字符特征研究中,刘敬学等^[14]提出一种字符特征的CNN和LSTM相结合的模型进行短文本分类,使用字符嵌入保留原始文本信息,但是对于词语间的理解仍有所欠佳。为了丰富语义信息,杨路辉等^[15]在词级别特征的基础上结合字符特征进行特征扩展,同时提取浅层和深层字符级特征并融合,模型的效果提升显著。聂维民等^[16]在字粒度的基础上结合词粒度和主题粒度,不断提高文本的特征表示能力,但涉及的词序关系范围小。刘龙飞等^[17]则利用字特征挖掘微博文本特征,与词级别原始输入特征相比,模型准确率更高。为了缓解中文文本中的拼写错误及其同音词所造成的语义理解偏差,余本功等^[18]提出一种结合拼音字符和词的双输入卷积神经网络模型CP-CNN,并在采样层使用k-Max动态采样,增强模型特征的表达能力。

在文本分类任务中,鉴于每个词都具有不同的词性,在词性中也包含着一些重要的语义信息。为了学习语篇中更深层次的抽象特征,有学者通过词性标注区分词在句子结构或语义中的不同角色^[19,20,21],有助于模型提取相应的特征。也有学者在分类的过程中,探究了不同词性（名词、副词、形容词、情态动词、形容词等）标签的影响,只保留对分类过程重要的语义特征,有效地消除了文本歧义,提高了文本的分类性能^{[22,23,24,25]}。为了提高区分术语的能力,文献[26,27]通过整合搭配作为术语特征,对形容词、名词、动词等特定类型词类的确定,提取出搭配词,降低了特征向量维数,提高了文档的表达能力。在词性研究中,Cheng等^[28]通过嵌入将词性部分映射为向量表示,然后直接将其输入带有词向量的模型中进行训练,在不同的语言中通过添加词性特征^{[29,30,31,32]},分析更深层的语义信息,实验结果表明,词性特征嵌入使所有分类器的分类准确率得到提高。为了更好地探索词语的句法信息,Huang等^[33]发现在神经网络中进行词性标记编码可以增强句子/短语的表示。Shiguihara-Juárez等^[34]考虑到文本中词法、语法和依赖特性的特征关系,利用词性标签特性中的信息,并与单词相结合,有效提取句子中的特征。有学者在输入层中构建词级别和词性特征双通道^[8],以及字符级别、词级别和词向量融合词性特征的三通道^[35],有效学习到句子内部的抽象语义信息。

鉴于深度学习领域CNN和BiGRU在文本分类任务中的显著效果,同时考虑到在分类文本中,不同的词性所代表的重要性不同,而Word2Vec词向量忽略了词性信息,同时为了弥补特征获取不充分的问题,本文提出了基于多种特征融合的文本分类模型。多种特征融合的文本分类模型,结合Word2Vec获取词级别的原始语义信息,在此基础上结合拼音字符特征、汉字字符特征和词性特征进行特征补充,使模型更充分地保留语义特征,在减少特征丢失的同时,提高模型的语义表征能力。同时,模型融合了BiGRU和CNN,在有效获取文本上下文特征的同时,结合CNN获取局部特征,去除冗余特征,有效获取抽象的高级语义信息。通过多种优化,不断丰富模型语义特征,以实现特征信息更加完整,进而提升模型分类性能。本文方法通用性较强,无需人工提取特征,极大地减少了参数量,节约了大量的人力和时间成本,满足了文本自动分类的需求。

3 基于多特征融合的文本分类模型

本文提出的多种特征融合文本分类模型,从多种语义层面进行语义理解,进一步提高文本的表征能力,进而提高文本分类的准确率。对于多特征融合的文本分类模型,首先需要对预处理后的待分类文本数据进行语义特征建模,包括词级特征表示、词性POS（Part-Of-Speech）特征表示、汉字字符特征表示和拼音字符级特征表示,构建4种不同的输入表示;然后将处理好的特征表示分别输入BiGRU进行上下文语义特征获取;接着将获取的上下文语义特征输入多种滤波器的卷积神经网络中进行局部特征获取,增强模型的特征学习能力;最后将多种不同的语义特征融合,丰富特征信息,并输入Softmax层中进行分类,预测得到所需要的类别标签。多特征融合的文本分类模型结构如图1所示。整个模型主要由语义特征表示、上下文特征获取、局部特征获取、多特征融合和Softmax分类5部分组成。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 多特征融合文本分类模型结构

Fig.1 Structure of Text Classification Model Based on Multi-Feature Fusion

3.1 语义特征表示

语义特征表示阶段主要是将待分类的文本映射成4种不同的特征表示,分别为词级特征表示、POS词性特征表示、汉字字符特征表示和拼音字符级特征表示,构建4种不同的特征作为多特征融合模型的特征输入。在输入特征构建中,首先需要对文本进行词向量训练、词性特征训练、拼音字符特征训练和汉字字符特征训练。将词向量特征表示作为原始语义特征,构建词级别特征;将词向量与POS词性特征进行拼接,构建POS词性特征扩展;将汉字字符特征作为特征输入,构建汉字字符特征表示;将拼音字符特征作为输入特征,构建拼音字符特征扩展。将4种不同的语义特征进行融合,可以为原始语义特征提供额外的信息,获取更为深层的语义信息,加深语义间的理解。

（1）词级别特征表示

词级别特征表示,即词组表示序列。在词级别特征表示阶段,使用Word2Vec进行词向量特征建模,首先利用分词工具对待分类文本进行切分,然后以切分的每个词（长度≥1）为组成单位训练词向量。Word2Vec^[36]包括CBOW模型和Skip-Gram模型,考虑到Skip-Gram的模型计算复杂度较高、计算量较大,为了节约时间,获取较高的计算精度,本文使用CBOW模型实现词向量训练。CBOW模型包括输入层、映射层和输出层,模型结构如图2所示。在训练过程中,待分类文本S进行分词后,得到句子 $s = (w_{1}, w_{2}, w_{3}, \dots, w_{n})$ ,其中n表示句子的长度, $w_{i}$ 表示第 $i$ 个词, $w_{i}$ 包含的字符串长度为 $l$ 。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 CBOW模型结构

Fig.2 CBOW Model Structure

在训练过程中,CBOW模型将该词上下文的n个词进行编码后,利用滑动窗口进行权重计算,最终获取当前词的向量表示。模型在词向量表示时,考虑到词的上下文信息,所以最终的词向量表示了一定的语义信息。在文本词向量训练中,将每个词表示固定为100维度的向量 $e_{i}^{w}$ ,计算过程如公式（1）所示。 $T_{1}$ 作为模型的一个输入, $T_{1}$ 构建如公式（2）所示, $E_{1}$ 为CBOW向量化的过程。

(1)

e_{i}^{w} = E_{1} (w_{i})

(2)

T_{1} = [e_{i}^{w}]

（2）词性标记

词性作为词语基本的语法属性,是词语和语句的关键性特征,为了获取更深层的语义特征,加深语义理解,本文结合词性特征进行特征获取。对于待分类文本,将其分词后进行相应的词性标记。将切分后的每个词赋予其对应的词性,包括名词、时间词、处所词、方位词、动词、形容词等类别,作为后面语义分析的基础工作。本文使用的词性标注标准为中国科学院计算技术研究所标注集。为了便于计算,将词性标记的特征向量维度固定为50维,词性标记后,进行One-Hot编码获得词性特征 $e_{i}^{p}$ ,如公式（3）所示,将词性特征和词级别特征进行融合作为模型的另一个输入 $T_{2}$ , $T_{2}$ 构建如公式（4）所示,其中 $E_{2}$ 为One-Hot向量化的过程。

(3)

e_{i}^{p} = E_{2} (w_{i})

(4)

T_{2} = [e_{i}^{w}, e_{i}^{p}]

（3）汉字字符特征获取

在中文分词的过程中,不同的分词工具分词也不尽相同,分词的不同造成的语义也就会存在不同,为了减少不同的分词对语义理解所造成的理解偏差,将汉字字符特征作为一个特征输入辅助原始语义特征,以学习更为深层的语义特征。在训练的过程中,将汉字字符特征的维度设定为100维。将待分类的文本进行汉字字符分割后,然后用Word2Vec对每个汉字进行编码向量化,如公式（5）和公式（6）所示,其中 $E_{3}$ 为n-gram向量化的过程。

(5)

e_{i}^{h} = E_{3} (w_{i})

(6)

T_{3} = [e_{i}^{h}]

（4）拼音字符特征获取

为了获取深层语义特征,结合拼音自身特点,通过构建拼音字符特征进行语义特征扩展。在中文里,字符级别特征表示即拼音表示序列。文本中单个字的拼音表示,是以拼音为基本组成单位训练词向量。在数据预处理阶段,原始中文文本按字符划分为单个汉字与符号,依照所建字典顺序映射为字嵌入原始矩阵。引入中文的拼音序列对原始文本进行语义拓展,通过汉语拼音进行中文文本的转换,拼音表示的文本再按字符嵌入。例如,“[笔记本电脑散热底垫]”拼音可表示为“[bijibendiannao sanredidian]”。按照字母表的顺序,一一对应相应的文本,使用大规模语料训练得到的单词嵌入向量集合,记为 $V_{t}$ 。将拼音进行向量化表示,获得字符映射向量,通过迭代字符序列中的单元,求出其在向量集合 $V_{t}$ 中的索引,获取其字符向量表示即可。将待分类文本进行字符向量化得到 $e_{i}^{c}$ ,字符向量化的计算如公式（7）所示。字符级特征向量维度固定为100维,将构建好的拼音字符级特征作为模型的另一部分输入 $T_{4}$ , $T_{4}$ 构建如公式（8）所示,其中 $E_{4}$ 为One-Hot向量化的过程。

(7)

e_{i}^{c} = E_{4} (w_{i})

(8)

T_{4} = [e_{i}^{c}]

通过构建拼音字符特征,进一步在字符层面拓展文本特征,同时可以降低同音字、多音字和错别字等异常字符对分类结果的影响。拼音表示相较于字嵌入,在错别字和多音字的处理上可适当纠错。例如,“一代水果”中错别字“代”拼音表示为“dai”,多音字“还”字拼音表示为“hai”或“huan”。字嵌入相较于拼音表示,在同音字的处理上存在优势。例如,“一部”的拼音“yibu”和“不错”的拼音“bucuo”,“bu”为音同字不同,语义上可以区分。

3.2 上下文特征获取

在自然语言中,语义特征的一个显著特点是连续性,词语的出现顺序往往影响句子的意义。为了对词序进行建模,同时考虑到文本中正向和反向语序的影响,基于以上两点,本文采用BiGRU模型提取文本的上下文语义信息。

GRU传统的循环神经网络中加入细胞态,同时加入门保护细胞态的信息更新,有效地解决了长距离依赖问题,与LSTM相比,它将隐层状态和细胞状态合并,减少了门的数量,同时减少了冗余信息和参数,模型的计算效率得到有效提高。GRU主要包括更新门和控制门,通过门进行信息选择和控制,并对选择后的信息进行更新。门元素的值在[0,1],当值为1时表示信息完全通过,当值为0时表示信息完全阻塞。GRU结构信息如图3所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 GRU节点结构

Fig.3 GRU Node Structure

$x_{t}$ 表示当前 $t$ 时刻的输入,输入GRU的时间序列步中,提取文本的序列特征,其输出向量代表该段文本的语义特征,如公式（9）所示。

(9)

\{\begin{array}{l} z_{t} = σ (U_{z} x_{t}^{+} + W_{z} [h_{t - 1}, h_{t + 1}] + b_{z}) \\ r_{t} = σ (U_{r} x_{t}^{+} + W_{r} [h_{t - 1}, h_{t + 1}] + b_{r}) \\ s_{t} = \tanh (U_{s} x_{t}^{+} + W_{s} r_{t} \times [h_{t - 1}, h_{t + 1}] + b_{s}) \\ h_{t} = (1 - z_{t}) \times [h_{t - 1}, h_{t + 1}] + z_{t} \times s_{t} \end{array}

其中, $U_{z}$ , $U_{r}$ , $U_{s}$ , $W_{z}$ , $W_{r}$ , $W_{s}$ 为网络权重参数; $b_{z}$ , $b_{r}$ , $b_{s}$ 为偏置值; $z_{t}$ 为更新门, $r_{t}$ 为重置门,用来控制信息通过的比例, $r_{t}$ 控制过去作用于候选状态的信息量,如果 $r_{t}$ 值为0,则表示忘记之前所有的状态,更新门 $z_{t}$ 用于控制保留的过去的信息量,以及被添加的新信息量。 $s_{t}$ 表示需要更新的信息, $h_{t}$ 表示 $t$ 时刻的隐藏层状态。 $h_{t - 1}$ 表示 $t - 1$ 时刻的状态, $h_{t + 1}$ 表示 $t + 1$ 时刻的状态。

在GRU对文本序列建模时,每个位置的隐藏状态只能对前面上下文进行正向编码,而不考虑反向上下文。双向GRU利用了两个并行通道,一个GRU从句首到句末进行文本语义建模,另一个GRU从句末向句首进行文本表示,然后将两个GRU的隐藏状态进行连接作为每个位置的表示。通过这种方式,当前时刻的输出就不仅仅与之前的状态有关,还与未来的状态有关,这样前后上下文可以同时考虑。双向计算的过程如公式（10）-公式（12）所示。

(10)

\vec{h_{t}} = gru (\vec{h_{t}}, T_{i})

(11)

\overset{⃖}{h_{t}} = gru (\overset{⃖}{h_{t}}, T_{i})

(12)

h_{t} = [\vec{h_{t}} ⨁ \overset{⃖}{h_{t}}]

其中, $⨁$ 表示连接操作; $\vec{h_{t}}$ 表示前向隐藏状态输出; $\overset{⃖}{h_{t}}$ 表示后向隐藏状态输出; $T_{i}$ 为语义特征输入, $i \in (1,2, 3)$ 。将上一层映射后的Word2Vec词向量序列 $T_{1}$ 、POS词性向量序列 $T_{2}$ 、汉字字符特征 $T_{3}$ 和字符特征序列 $T_{4}$ 分别按照词序输入第一层GRU的每个时间步中,每层GRU的输出结果作为下一层GRU的输入,最后一层GRU节点只保留最后一个节点的输出,把第 $L$ 层的网络输出 $H = {h_{1}, h_{2}, \dots, h_{n}}$ 当作语义表示,最终会得到多种不同的语义输出。

3.3 局部特征获取

（1）卷积层

为了获取关键语义特征,避免特征冗余,在上下文语义特征获取后加入卷积层来捕获局部语义特征,结合多种卷积核获取不同层级的信息。卷积本质上是对输入信号的加权叠加,将卷积核 $m$ 应用于特征矩阵的窗口 ${H_{1 : k}, H_{2, k + 1}, \dots, H_{n - k + 1 : n}}$ ,分别产生一个特征图,如公式（13）所示。然后将不同的特征图进行融合作为卷积最终的输出,如公式（14）所示。

(13)

c_{i} = f (m ∙ H_{i : i + k - 1} + b)

(14)

C = [c_{1}, c_{2}, \dots, c_{n - K + 1}]

其中, $b_{i}$ 是一个偏置项, $i$ 的取值不超过 $i + k - 1$ ; $∙$ 表示矩阵按照元素点乘。为了加快网络的收敛速度,激活函数 $f$ 选择线性激活函数 $ReLU$ , $f = \max (0, x)$ 。

对于某个卷积核,它对应一个卷积模板,能够提取一类特征。通常情况下,不同文本内容其上下文信息并不相同,因此,采用不同的卷积核大小提取不同粒度的局部特征,卷积核的大小分别取为{1,3,5}。经过三种不同的滤波器操作后,将得到三种不同的特征输出 $C$ 值。

（2）最大池化层

卷积层之后是池化操作,池化层也叫作降采样层,通过池化操作不仅可以降低文本特征的维度,保留主要特征,还可以防止过拟合现象的发生。常见的池化操作有两种：最大池化和平均池化操作,模型采用最大池化操作生成固定维度的特征向量,供分类器进行分类,将卷积后得到的C值进行最大池化,如公式（15）所示。然后将不同特征图池化后的值进行融合操作,如公式（16）所示。接着将不同大小滤波器的结果进行融合获取一个通道的输出特征 $W_{sw}$ ,如公式（17）所示。多个语义特征通道 $T_{1}$ 、 $T_{2}$ 、 $T_{3}$ 、 $T_{4}$ 经过特征获取后分别得到 $W_{sw}$ 、 $W_{sc}$ 、 $W_{s h}$ 和 $W_{sp}$ 。 $W_{sc}$ 、 $W_{s h}$ 和 $W_{sp}$ 通道的计算公式同 $W_{sw}$ 。

(15)

\hat{C} = \max (C_{i})

(16)

h^{*} = [{\hat{C}}_{1}, {\hat{C}}_{2}, \dots, {\hat{C}}_{n}]

(17)

W_{sw} = concecte {{h^{*}}_{1}, {h^{*}}_{3}, {h^{*}}_{5}}

3.4 多特征融合

在最大池化操作之后,需要将获得的4种不同的语义特征进行融合,获取最终的语义特征表示。需要将向量进行连接,形成固定长度的融合特征向量,即将原始文本的语义向量表示、词性语义特征扩展、拼音字符特征扩展和汉字字符特征进行拼接,拼接后得到最终语义特征 $Q$ ,向量拼接过程如公式（18）所示,其中,⊕为向量拼接操作。

(18)

Q = W_{sw} \oplus W_{sp} \oplus W_{sc} \oplus W_{s h}

3.5 Softmax分类

Softmax分类层主要是对上一层的输出向量进行归一化。将获取的最终语义向量表示 $Q$ 作为Softmax分类器的输入,从全局角度对特征进行分析来完成文本分类任务。获取的最终层次特征 $Q$ ,经过Softmax分类器进行归一化预测文本标签 $\hat{Y}$ 。如公式（19）所示。

(19)

\hat{Y} = \arg \max_{y} [softmax (W^{(s)} Q + b^{(s)})]

其中, $y \in R^{m}$ 为由Softmax得到每个类的估计概率。卷积神经网络目标代价函数为交叉熵损失函数,如公式（20）所示。

(20)

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} s_{i} \log (y_{i}) + λ | | θ | |^{2}

其中, $s \in R^{m}$ 为文档的真实标签,用One-Hot进行编码表示; $m$ 为目标分类的个数; $λ$ 为 $L 2$ 正则化超参数,取值为1e-5。

4 实验与分析

4.1 实验数据准备

（1）实验环境

本文实验环境描述如表1所示。

表1 实验环境配置参数

Table 1 Configuration Parameters of Experiment

环境	配置参数
处理器	Intel（R） Core（TM） I5-4200U CPU @1.6GHz
显卡	NVIDIA GeForce GT 740M
内存	12GB
编译器、语言	PyCharm,Python3.7

新窗口打开| 下载CSV

（2）数据准备

本文实验使用两个数据集,数据集信息如表2所示。一个为计算机专利数据,在SooPAR专利上选择中国专利“计算机”主题,文本主分类号为G06F1/16、G06F1/18、G06F1/20、G06F3/02、G06F3/14,选择近4年的专利数据,每个类别选择2 000篇进行下载。对下载后的专利数据进行筛选去重,保留专利摘要文本和主分类号并分类存储。另一个数据集为搜狗新闻语料库开源的数据集^[37],包含搜狐新闻2012年6月至7月期间18个频道的新闻数据,选择有代表性的5类数据,分别为汽车（2 000条）、财经（2 000条）、科技（2 000条）、体育（2 000条）、其他（2 000条）。获取的数据都相对平衡,避免了数据的不平衡对实验所造成的影响。

表2 数据集信息

Table 2 Data Set

数据项	计算机专利	搜狗新闻
来源	SooPAR专利	搜狗实验室开源
类别数	5	5
数量	10 000	10 000
平均长度（字符）	210	843
最短长度（字符）	150	30
最长长度（字符）	300	400

新窗口打开| 下载CSV

对待分类文本进行数据清洗,除去因网络来源产生的噪声,删除停止词。文档中的大多数词都不是很重要,如助动词、冠词和连词,都可以从文本中删除。然后利用Jieba工具对文本进行拼音表示,将汉字转换为拼音,然后对拼音进行切分,利用Word2Vec训练拼音字符向量。并利用Jieba工具对文本进行词性标记,采用中国科学院计算技术研究所的标注标准,对标记好的文本进行One-Hot编码。同时,将中文文本进行汉字字符切分,用Word2Vec进行汉字字符特征训练。同时,将待分类的文本进行分词后直接用Word2Vec进行训练得到词向量。

Word2Vec训练需要较大的语料数据,因此,本文实验在训练Word2Vec时,将抓取的文本和维基百科中文文本组合在一起,使用CBOW模型完成向量训练。对于数据集的划分,所使用的数据集都已全部划分为训练集和数据集,在训练数据时,将数据随机抽取80%作为训练集,20%作为测试集。

4.2 实验设置与评价指标

（1）实验设置

参数设置如表3所示。对于模型参数设置,为了使模型达到最好的效果,同时考虑到训练的时间成本,将BiGRU模型的单元数设置为100个,卷积核个数为64个,卷积核的大小为三种,即{1,3,5},训练时的批参数为20,每次迭代32个数据,同时,采用Adam对模型进行优化,降采样的学习率设置为0.25。

表3 模型参数设置

Table 3 Model Parameter Setting

参数	设定值
卷积核宽度	{1,3,5}
卷积核个数	64
GRU单元数	100
Batch Size	32
Epoch	20
Optimizer	Adam
Dropout Rate	0.25

新窗口打开| 下载CSV

（2）评价指标

实验采用分类模型常用的查准率P（Precision）、查全率R（Recall）、二者综合评价F1值和准确率Acc（Accuracy）作为模型的评价指标,如公式（21）-公式（24）所示。

(21)

P = \frac{TP}{TP + FP}

(22)

R = \frac{TP}{TP + FN}

(23)

F 1 = \frac{2 \times P \times R}{P + R}

(24)

Acc = \frac{TP + TN}{TP + TN + FN + FP}

其中,TP表示预测为c类,实际为c类;FP表示预测为c类,实际为非c类;TN表示预测为非c类,实际为非c类;FN表示预测为非c类,实际为c类;c取1,2,3,…。c根据实际类别数来赋值。

4.3 实验结果与分析

（1）多特征融合对模型分类效果的影响

在对比实验中,为了验证多特征融合的实验效果,本文设计了词性BiGRUCNN、拼音字符BiGRUCNN、汉字字符BiGRUCNN、词向量BiGRUCNN、词性与词向量融合BiGRUCNN、汉字字符与词向量融合BiGRUCNN、字符拼音与词向量融合BiGRUCNN等多种模型与本文模型进行对比。在模型的训练过程中,分别将实验训练5次并求模型的准确率、P值、R值和F1值的平均值。因为本文数据为平衡数据,实验的效果以准确率作为主要的评价指标,其他指标作为辅助。

多特征融合对比实验结果如表4和表5所示。在两种不同的数据集中,通过词性与词向量的模型对比可以看出,结合词向量准确率分别为76.1%和83.6%,结合词性模型准确率只有57.3%和64.9%,结合词性与词向量的模型,准确率达到78.1%和85.1%,同时双通道与结合词性的三通道对比,模型分类效果有不同程度提升,实验证明了模型结合词性的有效性。这说明,结合词性的模型可以在一定程度上提高模型的语义表达能力。通过词向量与拼音字符向量的模型进行对比,可以看出,在两种数据中拼音字符特征准确率只有64.1%和72.3%,当拼音字符特征与词向量相结合模型准确率分别达到79.1%和86.0%,模型的分类效果在不同的数据中都有很大的提升。这说明,结合拼音字符后,模型可以从多种不同语义结构对语义进行理解,提高了模型的理解能力,对于模型的分类性能也有很好的提升。利用拼音来获取字符特征可以降低文本的歧义程度,增强文本的分类性能。通过词向量与汉字字符向量的模型进行对比,结合汉字的模型准确率只有65.2%和75.2%,结合词向量和汉字字符特征模型准确率达到80.2%和87.2%,与单通道词向量模型相比准确率均有所提升。这说明,字符特征可以在一定程度上加强语义表征能力。

表4 多特征融合模型对比（计算机专利）

Table 4 Comparison of Multi-Feature Fusion Models （Computer Data）

数据集	模型	Acc	P	R	F1
计算机专利	POS-BiGRUCNN	57.3%	59.4%	58.1%	60.0%
	PY-BiGRUCNN	64.1%	65.3%	63.5%	64.1%
	HZ-BiGRUCNN	65.2%	62.7%	62.6%	62.2%
	Word-BiGRUCNN	76.1%	76.9%	76.2%	76.5%
	POS-Word-BiGRUCNN	78.1%	77.5%	77.1%	77.3%
	PY-Word-BiGRUCNN	79.1%	78.8%	78.5%	77.5%
	HZ-Word-BiGRUCNN	80.2%	79.5%	79.3%	79.5%
	PY-POS-Word-BiGRUCNN	81.3%	80.3%	78.6%	79.4%
	HZ-POS-Word-BiGRUCNN	81.2%	81.3%	80.5%	80.9%
	PY-HZ-Word-BiGRUCNN	82.2%	82.3%	81.9%	80.9%
	PY-POS-HZ-Word-BiGRUCNN（本文）	83.3%	83.6%	82.9%	83.4%

新窗口打开| 下载CSV

表5 多特征融合模型对比（搜狐新闻）

Table 5 Comparison of Multi-Feature Fusion Models （Sohu News）

数据集	模型	Acc	P	R	F1
搜狐新闻	POS-BiGRUCNN	64.9%	61.3%	62.6%	63.3%
	PY-BiGRUCNN	72.3%	71.9%	69.8%	71.2%
	HZ-BiGRUCNN	75.2%	72.7%	72.6%	72.2%
	Word-BiGRUCNN	83.6%	81.6%	80.1%	79.8%
	POS-Word-BiGRUCNN	85.1%	84.2%	81.9%	82.1%
	PY-Word-BiGRUCNN	86.0%	84.8%	82.2%	83.2%
	HZ-Word-BiGRUCNN	87.2%	85.7%	84.3%	84.2%
	PY-POS-Word-BiGRUCNN	89.1%	87.6%	89.3%	87.5%
	HZ-POS-Word-BiGRUCNN	89.4%	89.6%	89.3%	89.5%
	PY-HZ-Word-BiGRUCNN	90.2%	89.6%	89.9%	89.1%
	PY-POS-HZ-Word-BiGRUCNN（本文）	91.1%	91.3%	90.8%	89.7%

新窗口打开| 下载CSV

将双通道模型与三通道模型对比发现,结合词性和词向量的模型进行拼音特征融合为三通道后,模型的准确率由78.1%、85.1%分别提升为81.3%、89.1%。同理,将词性、汉字字符和词向量融合后模型的效果也有所提升。而在词向量模型的基础上将词性特征、拼音字符特征和汉字字符特征进行多特征融合后,模型的效果达到最佳,准确率为83.3%和91.1%,多特征融合的模型之间相互比较可以发现,模型在词向量的基础上进行不同特征融合均能够对模型起到积极的作用,同时结合多种特征可以进一步加深模型的语义理解,实现多种特征优势互补。

再结合其他几个评价指标来看,P为查全率,在两种实验数据中,融合多特征的模型效果最好,其中模型的查全率和召回率最高。R为召回率,即预测正确的样本数与实际样本总数的比值,本文的模型预测错误的样本数在实际样本总数中所占比例最低。实验结果表明,本文模型的分类效果提升显著,这表明在词级别特征的基础上结合拼音字符特征、汉字字符特征和词性特征,对于文本分类性能有很大的改善。

（2）基准模型对比

为了验证模型的分类效果,使用计算机专利数据将本文模型与常用的模型LSTM、GRU、BiGRU、CNN进行对比。在对基准模型进行实验时,对待分类文本进行预处理,使用Word2Vec进行向量化,向量的维度为100,都为单通道的实验。实验结果如表6所示。可以看出,当GRU和LSTM相比较时,GRU更胜一筹。因为GRU在结构上比LSTM少一个门,这使GRU模型的训练参数较少,训练时间也将明显缩短,在同一时间内模型的收敛速度更快。通过单向GRU和双向GRU的比较可以发现,单向GRU只能对正面的上下文信息进行编码理解,而不能获取反向的上下文信息,而双向GRU有效解决了这个问题,能够获取更为全面的信息。从实验结果中可得到,BiGRU的文本分类性能较GRU要好,更有利于分类任务。但是,BiGRU也存在一定的缺陷,因为需要进行双向训练,会增加模型的训练时间,需要消耗一定的时间成本。

表6 基准模型对比结果

Table 6 Comparison Results of the Benchmark Model

模型	Acc	P	R	F1
LSTM	74.4%	74.7%	74.7%	74.9%
GRU	75.0%	74.4%	75.7%	75.1%
BiGRU	75.2%	75.5%	75.5%	75.6%
CNN	73.7%	72.1%	71.5%	71.6%
PY-POS-HZ-Word-BGRU（本文）	83.3%	83.6%	82.9%	83.4%

新窗口打开| 下载CSV

从实验结果可知,本文模型的准确率最高,F1值也达到最高。首先,本文模型同时结合BiGRU和CNN模型,能够在有效获取上下文语义信息的同时,去除冗余信息进行局部特征获取,在模型上实现了优势互补;其次,本文模型在通常文本分类任务获取词级别语义特征的基础上,结合字符特征和词性特征,实现语义特征扩展,获取多特征语义实现特征补充,有效提升了文本的分类性能。因此,在与基准模型对比时,本文模型分类效果达到最佳,这说明本文模型在文本分类任务中具有很大的优势。

（3）卷积大小对模型的影响

为了验证不同卷积核大小对模型效果的影响,获得最佳性能时卷积核的大小,使用计算机专利数据将模型采用多种不同卷积大小进行实验。

单通道的卷积神经网络,卷积核的大小分别设置为{1,3,4,5,6,7},模型的实验结果如图4所示。图4中横坐标为卷积核大小,纵坐标为分类评价值。从单个卷积核来看,随着卷积核大小的增加,模型的准确率随之增加,当卷积核大小达到5时,模型的准确率达到最高;当卷积核大小超过5时,准确率反而降低。通过分析可知,越大的卷积核,可以获取越全面的信息,模型的分类性能可以得到完善。但是,如果使用太大的卷积核,会占用更多的内存,消耗更多的时间,模型的准确率不会有太大的提升。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 单滤波器实验结果

Fig.4 Single Filter Experimental Results

结合两种滤波器的实验结果如图5所示。图5中横坐标表示两种不同卷积核的大小,纵坐标表示模型的分类评价值。当结合两种不同的卷积核大小时,包含卷积核大小为1的模型中,卷积核大小为1和5相结合时准确率达到最高,随后模型的准确率降低,训练时间也在不断增加,需要消耗大量的时间成本;包含卷积核大小为3的模型中,卷积核大小为3和5相结合的模型的准确率达到最高,虽然3和7相结合的模型效果也不差,但是消耗的时间成本太高,因此并没有使用。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 双滤波器实验结果

Fig.5 Double Filters Experimental Results

当结合三种不同的卷积核时,实验结果如图6所示。图6中横坐标表示三种不同卷积核的大小,纵坐标表示模型的分类评价值。可知,并不是卷积核越大模型的效果就会越好,选择适合的卷积核大小可以有效提升模型的效果。选择不同滤波器卷积核大小的卷积神经网络可以获取不同层次的抽象信息,为了有效获取特征,可以结合多种卷积核进行特征获取。结合卷积核大小为{1,3,5}的模型的准确率和F1值都达到了最佳,因此本文结合了{1,3,5}卷积核大小的滤波器完成模型的文本分类任务。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 三种滤波器结合实验结果

Fig.6 The Three Filters are Combined with Experimental Results

（4）词向量维度大小对实验的影响

为了探究不同的词向量维度对于模型分类性能的影响,本文使用不同的词向量维度进行对比实验,以保证问题分类的准确性和时效性。实验结果如图7所示,横坐标表示词向量的维度,纵坐标表示模型的分类准确率。由实验结果可知,随着词向量维度的增加,模型的准确率在不断改变。当维度从50增加到150时,模型的准确率在不断提高;当维度从150增加到350时,准确率趋于稳定。而随着维度的不断增加,模型的训练时间随之增长,增长的幅度越来越大,综合考虑模型的分类时效性和准确率,因此选择100作为词向量维度。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 词向量维度对模型的影响

Fig.7 The Effects of Word Vector Dimensions on Models

5 结语

文本分类是自然语言处理中的关键任务之一,为了有效获取关键信息,捕获更深层的抽象信息,本文提出多特征融合文本分类模型。在构建模型中,首先要进行语义特征表示,将预处理后的待分类文本进行分词后,获取词性特征扩展、拼音字符特征扩展、汉字字符特征扩展和词级别特征扩展,构建多种不同的语义特征,作为模型的输入;将特征输入BiGRU中进行双向上下文特征获取,然后输入CNN中进行局部特征获取,再输入最大池化操作获取最大特征,去除冗余特征,最终输入到Softmax层中进行分类,从而实现文本分类任务。本文的主要贡献如下。

（1）使用拼音作为字符特征扩展作为文本表征方式,解决中文字符难以量化、同音词和拼写错误的问题。

（2）将拼音字符特征与词特征作为联合输入,解决单一字符特征或词特征维度不足的问题。

（3）结合词性进行语义补充,提高模型的特征表达能力。

（4）将汉字字符特征作为特征补充,提高了模型的文本表征能力。

本文的多特征融合模型有效结合了词级别特征、拼音字符级别特征、汉字字符特征和词性特征,实现了语义多特征扩展,在丰富语义信息的同时降低了噪声的干扰,有效优化了模型的分类性能。

虽然本文模型的文本分类效果比基准模型等分类效果有一定的提升,但仍存在一定的不足和可改进之处。根据模型的分类准确率可知,模型仍然存在一定的错误分类情况。要想更好地提升模型的分类效果,一方面,可以考虑加入关键词注意力机制,对关键词进行注意力计算,保留更多的关键信息;另一方面,考虑加强对数据的预处理、及时更新停用词表等,提高数据的质量。由于时间和精力的限制,本文没有考虑注意力机制。未来工作将在此基础上进行深入的研究。

作者贡献声明

王艳：提出研究思路,对研究方法、研究过程进行修正;

王胡燕：数据处理及实验分析,论文撰写;

余本功：提出研究思路,设计研究方案,论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: 1115419302@qq.com。

[1] 王胡燕. Computer Patents.xlsx. 计算机专利分类数据集.

[2] 王胡燕. Sohu news.xlsx. 搜狐新闻数据集.

[3] 王胡燕. 实验图表数据.xlsx. 深度学习模型图表.

[4] 王胡燕. 分类实验结果数据.xlsx. 文本分类实验结果数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

武娇, 洪彩凤, 顾永春, 等.

基于类邻域字典的线性回归文本分类

[J/OL]. 计算机工程. [2021-06-18]. https://doi.org/10.19678/j.issn.1000-3428.0058692.

URL [本文引用: 1]

(Wu

Jiao

, Hong

Caifeng

, Gu

Yongchun

, et al.

Class-wise Nearest Neighbor Dictionary based Linear Regression Model for Text Classification

[J/OL]. Computer Engineering. [2021-06-18]. https://doi.org/10.19678/j.issn.1000-3428.0058692.)

URL [本文引用: 1]

[2]

方秋莲, 王培锦, 隋阳, 等.

朴素Bayes分类器文本特征向量的参数优化

[J]. 吉林大学学报(理学版), 2019, 57(6): 1479-1484.

检索词推荐：