基于混合采样与迁移学习的患者评论识别模型*

doi:10.11925/infotech.2096-3467.2019.0549

基于混合采样与迁移学习的患者评论识别模型*

向菲^,^,, 谢耀谈

华中科技大学同济医学院医药卫生管理学院武汉 430030

Recognition Model of Patient Reviews Based on Mixed Sampling and Transfer Learning

Xiang Fei^,^,, Xie Yaotan

School of Medicine and Health Management, Tongji Medical College, Huazhong University of Science and Technology, Wuhan 430030, China

通讯作者: 向菲,ORCID: 0000-0001-7418-4912,E-mail:xiangfei@hust.edu.cn。

收稿日期: 2019-05-24 修回日期: 2019-08-1 网络出版日期: 2020-02-25

基金资助:

*本文系华中科技大学自主创新基金项目“社区健康信息空间构建模式与服务设计”. 2014AA034

中央高校基本科研业务费资助项目的研究成果之一

Received: 2019-05-24 Revised: 2019-08-1 Online: 2020-02-25

摘要

【目的】 针对患者评论中的不均衡样本数据,提出一种基于混合采样与迁移学习的端到端的卷积神经网络模型。【方法】 采用混合采样与迁移学习的方法解决样本不均衡问题,并利用Word2Vec与卷积神经网络相结合的端到端深度学习架构对患者评论文本进行分布式表示、特征提取以及主题分类。【结果】 采用混合采样与迁移学习的主题识别模型相比,以SVM为代表的传统机器学习模型以及单一卷积神经网络模型在准确率、召回率以及F1值上有明显提升。【局限】 本研究的不均衡样本仅针对在线患者评论文本。【结论】 本研究提出的基于混合采样与迁移学习的患者评论识别模型在应对不均衡样本问题时能够有效提升患者评论识别效果。

关键词： 混合采样 ; 迁移学习 ; 不均衡样本 ; 卷积神经网络 ; 患者评论识别

Abstract

[Objective] This study proposes a new convolutional neural network model, aiming to process the imbalanced data of online patient reviews.[Methods] First, we established the new model with mixed sampling and transfer learning techniques. Then we used end-to-end deep learning architecture based on Word2Vector and convolutional neural network for the distributed representation, feature extraction and topic classification of online patient reviews.[Results] Compared with traditional machine learning algorithm represented by SVM and single convolutional neural network, the proposed model significantly improved the accuracy, recall and F1 values.[Limitations] The imbalanced data of this study was only from online patient reviews.[Conclusions] The proposed model could effectively improve the recognition results of imbalanced data.

Keywords： Mixed Sampling ; Transfer Learning ; Imbalanced Data ; Convolutional Neural Network ; Patient Reviews Recognition

PDF (890KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

向菲, 谢耀谈. 基于混合采样与迁移学习的患者评论识别模型*. 数据分析与知识发现[J], 2020, 4(2/3): 39-47 doi:10.11925/infotech.2096-3467.2019.0549

Xiang Fei. Recognition Model of Patient Reviews Based on Mixed Sampling and Transfer Learning. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 39-47 doi:10.11925/infotech.2096-3467.2019.0549

1 引言

类似于电商中用户关于某类产品的评价,在线医疗社区中也包含患者对于现实医疗服务的评价数据,对这些患者评论数据的主题进行有效的识别与归纳,在为社区其他患者提供就医参考咨询的同时,也能够帮助医疗服务提供者有针对性地改善医疗服务^[1]。但是在应用基于监督学习的方法进行患者评论识别时,会面临以下问题：语料库样本数据标签的不均衡问题^[2];文本分布式表示问题^[3];语义特征抽取问题等^[4]。鉴于此,本研究提出一种基于混合采样与迁移学习的患者评论识别模型。混合采样技术能够保证不均衡样本中正负样本比例失调的问题,同时本文引入迁移学习的思想,将均衡样本中学习到的知识迁移到不均衡样本的知识学习中,从而提高相应主题识别模型的效果。另外采用Word2Vec与卷积神经网络相结合的端到端深度学习架构解决文本分布式表示、特征提取与模型训练的问题,从而提升模型的整体预测能力。

2 相关研究

2.1 评论识别模型

患者评论识别在自然语言处理领域通常可以看作文本挖掘的过程,就技术而言,当下流行的方法可以划分为基于无监督学习和有监督学习的方法^[5]。有研究者通过N-gram模型结合UMLS超级叙词表对患者评论文本进行术语抽取,并用期望最大值（Expectation Maximization, EM）算法对术语集合进行主题聚类^[6]。此外也有研究者采用LDA主题模型对在线患者评论主题进行识别^[7]。在无监督学习中,研究者将评论文本中的词语单元按照某种指标进行聚类或者以特定概率分布的主题模型进行主题划分,然而实际中单纯的主题聚类会面临一些问题,诸如：

（1）主题分布具有不确定性,不受研究者所控制;

（2）评论文本多主题识别;

（3）单一文本主题识别。

基于有监督学习的文本挖掘方法通常被看作文本分类的过程,需要研究者事先构建相应的语料库,然后将文本内容与标签分别进行向量化表示,以供特定的算法进行特征提取与模型训练。从现有研究来看,基于有监督学习的患者评论识别研究是远远少于基于无监督方法的。Rivas等^[8]从收集的患者评论文本中随机抽样600条评论,按照10类主题进行标注,并采用支持向量机、卷积神经网络、随机森林以及基于依存树分类器（Dependency Tree-Based Classifier, DTC）算法建立各个主题的分类模型,选出效果最优的模型用于主题识别。

2.2 样本采样技术

非均衡数据从形式上可以表述为小类样本（正样本）与大类样本（负样本）的比例失衡问题。在对非平衡数据进行批量训练时,由于不能很好地捕捉到低比例样本的信息,从而导致小类样本的召回率偏低。然而这些小比例的正样本往往具有重要的现实意义,比如欺诈监测中的欺诈样本,疾病预测中的疑难疾病等^[9]。当前的研究主要从样本采样和算法改进两个层面处理数据不均衡问题。样本采样是通过对训练样本集进行重构以解决数据不均衡的问题,主要是增加或减少某类样本的数量来达到降低样本偏倚的目的,从而有效地对小类样本进行分类。重采样的方法大体分为过采样（Over Sampling）与欠采样(Under Sampling)两类。前者通过增加小类样本的数量平衡数据集中的样本分布,而后者则是通过减少大类样本的数量平衡数据集中的样本分布。

欠采样中常见的算法包括：基于随机欠采样（Random Under Sampling）的方法、基于最邻近编辑规则（Edited Nearest Neighbor）^[10]的方法、基于单边采样的方法^[11]等。虽然欠采样的方法可以在一定情况下解决样本不均衡的问题,但是在实际中往往会丢失大类样本中较多的信息,而这些被忽略掉的大类样本中可能包含较为重要的信息,从而无法有效保证模型分类的准确性^[12]。基于SMOTE的方法是过采样技术中主流的算法^[13],主要通过样本与其连线上的样本随机生成样本点来平衡样本,这种方法可以有效解决随机采样带来的过拟合问题,但是也会带来一定的样本重叠问题。部分学者在这种算法的基础上做出一定改进,比如对边界情况^[14,15]进行考虑等。

2.3 迁移学习技术

迁移学习是将现有领域知识进行跨领域求解的一种机器学习方法。按照输入空间与输出空间的不同,迁移学习可以划分为同构空间的迁移学习与异构空间的迁移学习^[16,17,18]。而按照内容的角度,迁移学习则包含基于特征迁移^[19,20]、基于参数迁移^[21]、基于实例迁移^[22]以及基于关联迁移^[23]。迁移学习在传统机器学习领域得到较为广泛的应用,特别是较多地应用于图像处理^[24,25]领域,在自然语言处理领域,尤其是面向不均衡数据源,探索与应用还较少。本文引入迁移学习的思想,将均衡样本中学习到的知识迁移到不均衡样本的知识学习中,以提升不均衡样本分类的效果。

3 研究框架设计

本文设计思路如图1所示,可以概括为：

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 基于混合采样与迁移学习的多主题标签识别框架

Fig.1 Recognition Framework of Multi-label Data Based on Mixed Sampling and Transfer Learning

（1）语料库多标签转换,将语料库中评论多主题标签数据转换为各自主题的正/负样本数据;

（2）训练集生成批数据时对大类样本与小类样本混合采样,平衡不均衡样本中正/负标签比例失调的问题;

（3）模型训练与迁移学习,对均衡样本进行模型训练,并将均衡样本中学习到的知识迁移到不均衡样本的知识学习中;

（4）以准确率、召回率、F1值为指标评估模型效果,并将各自主题的分类模型进行集成,用于患者评论识别。

3.1 语料库多标签转换

本文使用的患者评论语料库是多主题标签的,即一条评论对应多个主题标签。要将语料转换为可供算法训练的形式,首先要考虑多标签转换的问题。One-vs-All的策略是文本多标签分类中的常用方法,其核心思想是将多标签的训练集转换为各自标签的单个数据集,对应到每条数据中则为该标签的正/负样本,以此分别训练单个标签的二分类器,每个分类器对各自标签的正/负样本进行分类。在模型集成时,每个单独的二分类器会以此对未知样本进行预测,如果结果为正,则添加到预测标签集中。

3.2 训练数据混合采样

本文所提出的混合采样的基本思想是在训练集生成批数据（Batch Data）时分别对小类样本、大类样本进行采样,具体过程如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 混合采样过程

Fig.2 Mixed Sampling Process

假定某一主题的原始训练集为 $D = {(x_{1}, y_{1}),$ $(x_{2}, y_{2}), \dots, (x_{n}, y_{n})},$ $x_{i} \in X \subseteq R^{n}$ , $y_{i} \in {C_{P}, C_{n}}$ , $C_{P}$ 为小类样本, $C_{n}$ 为大类样本,训练集大小为N。

（1）将原始训练集拆分为小类样本集合 $y_{i} = C_{P}$ 与大类样本集合 $y_{i} = C_{n}$ ;

（2）设定小类样本的采样数为 $M_{1}$ ,即对于小类样本训练集合,每个批数据需要随机采集 $M_{1}$ 个小类样本;

（3）设定大类样本的采样数为 $M_{2}$ ,即对于大类样本训练集合,每个批数据需要随机采集 $M_{2}$ 个大类样本;

（4）采集的每一个批数据大小为 $M_{1} + M_{2}$ ,共生成 $\frac{N}{M_{1} + M_{2}}$ 个批数据,投入模型中进行训练;

（5）训练集迭代训练,重复步骤（1）-步骤（4）,直到模型收敛。

3.3 小样本迁移学习

除了采用混合采样的方式处理不均衡数据中正/负样本比例失调的问题,本研究也引入迁移学习的思想,用于小样本主题数据集的模型训练。基本思想是通过迁移学习使得不均衡样本能够学习到与其相近的均衡样本中的领域知识,从而使得模型更快地收敛,提高模型预测的准确率。其具体过程可以表述为：

（1）对于多主题标签语料库 $D = {(x_{1}, y_{11}, y_{12},$ $\dots, y_{1 j}), (x_{2}, y_{21}, y_{22}, \dots, y_{2 j}), \dots, (x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij})}, x_{i} \in$ $X \subseteq$ $R^{n}$ , $y_{ij} \in {C_{1}, C_{2}, \dots, C_{K}}$ ,其中K为主题标签类型的个数,对于任意 $C_{i}, C_{j}$ ,计算其共现频次 $N (C_{i}, C_{j})$ ,如公式（1）与公式（2）所示。

(1)

N (C_{i}, C_{j}) = \sum_{(x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij}) \in D} I (C_{i}, C_{j})

(2)

I (C_{i}, C_{j}) = \{_{0, C_{i} \notin (x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij}) or C_{j} \notin (x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij})}^{1, C_{i} \in (x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij}) and C_{j} \in (x_{i}, y_{i 1}, y_{i 2}, \dots, y_{ij})}

（2）对于二分类数据集合 ${D_{1}, D_{2}, \dots, D_{k}}$ ,其中 $D_{i}$ 为小样本标签 $C_{i}$ 的训练集,选取与 $C_{i}$ 共现频次最高的充足样本标签 $C_{j}$ ,在 $C_{j}$ 标签的训练集 $D_{j}$ 上训练分类模型 $Model (D_{j})$ ,保留该模型的参数设置。

（3）以 $Model (D_{j})$ 作为小样本标签 $C_{i}$ 训练集 $D_{i}$ ,初始化训练模型。

3.4 端到端卷积神经网络

在传统机器学习中,文本分类任务往往是由多个独立的模块构成,诸如文本表示、特征提取、模型预测等,每一个模块对应独立的步骤,其结果的好坏都会影响到最终模型预测的结果。而在深度学习中,则将数据从输入端到输出端整个过程连接为一个整体,模型最终的训练会得到相应误差,这个误差信号会在深度网络的各层间传递,每一层也会由此做出相应调整,这种过程可以看作端到端学习（End-to-End Learning）^[26]。本文所采用的端到端的卷积神经网络（Convolutional Neural Network, CNN）如图3所示,由表示层、卷积层、池化层与全连接层组成^[27]。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 基于端到端卷积神经网络的患者评论识别模型

Fig.3 Patient Reviews Recognition Model Based on End-to-End CNN

（1）表示层

Word2Vec的思想解决了基于词袋模型（Bag of Words）中高维度、高稀疏、低语义的问题,在自然语言处理领域取得了很好的效果^[28]。本文采用Skip-Gram的词向量模型,其核心思想是用文档中的词 $w_{i}$ 预测特定窗口大小n内上下文的词 ${w_{i - n}, w_{i - n + 1},$ $\dots, w_{i + n - 1}, w_{i + n}}$ 。其模型结构如图4所示。利用该模型在大规模语料上训练词语的向量化表示,保留模型中投影层的权重矩阵,即对应于词 $w_{i}$ 的词向量,以用于下游的文本分类任务。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 Skip-Gram词向量模型

Fig.4 Skip-Gram Model

（2）卷积层

卷积层是对输入层的二维文本矩阵进行卷积操作,给定文本矩阵 $V \in R^{n \times d}$ ,卷积核 $W \in R^{m \times d}$ ,其中,n为文本中词语个数, $m$ 为卷积核大小, $d$ 为词向量维度,卷积核与文本矩阵中的特定连续长度为 $m$ 的词向量 $X_{i : i + m - 1} \in R^{m \times d}$ 进行点乘运算,如公式（3）所示,生成特征映射（Feature Map）。其中, $f ()$ 为非线性激活函数, $W$ 是特定大小卷积核, $X_{i : i + m - 1}$ 是文档中连续长度为 $m$ 的词向量, $b$ 是偏置项。

(3)

C_{i} = f (W • X_{i : i + m - 1} + b)

随着卷积核在文本矩阵上移动平滑,这个过程生成较多的特征映射,并通过连接操作形成特征映射矩阵,如公式（4）所示。

(4)

F_{i} = [C_{1}, C_{2}, \dots, C_{n + m - 1}]

（3）池化层

文本矩阵通过多个不同大小卷积核进行卷积操作后会产生多维的特征向量矩阵,通常具有较高的维度,难以直接用于分类。在此需要通过池化层进行降维并捕捉重要语义特征的处理。本文采用最大池化（Maximum Pooling）操作。其计算过程如公式（5）-公式（7）所示。

(5)

x_{i} = Down (F_{i})

(6)

Y_{i} = \max (x_{i})

(7)

Y_{i}^{'} = f (ω_{i} \cdot Y_{i} + b_{i})

其中,对于每一个特征映射 $F_{i}$ 来说,都可以将其划分为不同的区域, $x_{i}$ 是对这些区域进行下采样得到的值, $Y_{i}$ 是最大化下采样的值, $f ()$ 为非线性激活函数, $ω_{i}$ 、 $b_{i}$ 分别是权重和偏置, $Y_{i}^{'}$ 为池化层的输出。

（4）全连接层

表示层、卷积层以及池化层都是将文本原始数据映射到隐层空间并进行特征提取,而全连接层则是为了将隐层中的特征映射到文本标签空间,即解决最终的文本分类问题。在此采用Softmax回归,如公式（8）所示。

(8)

\begin{array}{l} p (y = c | x) = softmax ({w_{c}}^{T} x + b_{c}) \\ = \frac{\exp ({w_{c}}^{T} x + b_{c})}{\sum_{c}^{C} ({w_{c}}^{T} x + b_{c})} \end{array}

其中, $x$ 是全连接层输入, $y \in {1,2, \dots, c}$ 是类别标签, ${w_{c}}^{T}$ 、 $b_{c}$ 分别是权重与偏置, $p (y = c | x)$ 表示当前输入 $x$ 下预测为标签 $c$ 的概率。

本文中是两类标签,所以Softmax回归的决策函数如公式（9）所示。

(9)

\hat{y} = \underset{y \in {0,1}}{argmax} (\exp ({w_{y}}^{T} x + b_{y}))

计算损失时采用交叉熵损失,训练方式采用随机梯度下降的方法更新模型参数,同时为防止过拟合,在全连接层进行Dropout与L2正则化优化。

4 实验过程与结果分析

4.1 实验数据

本研究采用的数据是笔者所在实验室标注的患者评论私有数据集,数据来源于微医网中患者就诊后的评论数据,具体描述如表1所示。其中,“态度”代表患者对就医过程中医生态度、医德等主观性服务评价;“能力”代表患者对就医过程中医生医术、经验、水平等客观性能力评价;“措施”代表患者对就医过程所接受的诸如检查、手术、用药等具体医疗措施的评价;“效果”代表患者对就医过程医疗效果的评价;“环境”代表患者对医院的软硬件环境的评价;“费用”代表患者对就医花费的评价。

表1 实验数据集基本情况表

Table 1 Description of Experimental Data Set

主题名称	正例数（个）	负例数（个）	IR
态度	1 313	687	1.91
能力	515	1 485	2.88
措施	841	1 159	1.38
效果	596	1 404	2.36
环境	357	1 643	4.60
费用	107	1 893	17.69

新窗口打开| 下载CSV

除此之外,引入不均衡率（Imbalance Ratio, IR）表征数据集标签的不均衡程度^[29],IR值为实验数据集中大类样本标签与小类样本标签的比值。以此为依据,设定态度、能力、措施、效果主题标签所在数据集为大类数据集,环境、费用主题标签所在数据集为小类数据集。小类数据集中主题标签与大类数据集中标签的共现频次如表2所示,其中环境与态度、费用与措施的共现频次分别在各自组中最高。以此为依据,选择态度主题数据集训练的模型为环境主题迁移学习的原始模型,措施主题数据集训练的模型为费用主题迁移学习的原始模型。

表2 主题标签共现情况

Table 2 Co-occurrence of Topic Labels

主题1	主题2	共现频次
环境	态度	190
环境	能力	54
环境	措施	116
环境	效果	72
费用	态度	51
费用	能力	25
费用	措施	62
费用	效果	31

新窗口打开| 下载CSV

4.2 模型参数设置与效果评估

（1）端到端卷积神经网络参数

表示层中,采用自训练的领域文本词向量,数据源为笔者所在实验室所采集的281 339条患者就诊后评论文本,词向量的训练参数如表3所示。卷积神经网络卷积层、池化层、全连接层参数如表4所示。

表3 词向量训练参数表

Table 3 Parameters of Word2Vec Training

参数名称	参数取值	参数含义
size	200	词向量维度
window	5	窗口大小,当前词与预测词在句中最远距离
sg	1	词向量训练模型：Skip-Gram
min_count	5	词频阈值

新窗口打开| 下载CSV

表4 卷积神经网络参数表

Table 4 Parameters of CNN

参数名称	参数取值	参数含义
filter size	[1,2,3]	卷积核大小
filter number	128	卷积核数量
dropout rate	0.50-0.75	随机失活比率
l2_alpha	10	L2正则化系数
learning rate	1e-4-1e-3	随机梯度下降学习率

新窗口打开| 下载CSV

（2）模型评估指标

为有效地评估分类器的分类效果与泛化能力,选用10折交叉验证法,将训练样本集随机分为10份大小相等的互斥子集,每次以其中1份作为测试集,余下7份子集的并集作为训练集,2份子集的并集作为验证集,在此基础上测试10次实验结果,并以测试结果准确率（Precision）、召回率（Recall）、F1值的平均值为模型性能的度量指标。

4.3 结果分析

不同主题数据集分类模型的准确率、召回率、F1值分别如表5-表7所示。

表5 不同主题数据集分类模型准确率

Table 5 Accuracy of Classification Models for Different Topic Datasets

算法	态度	能力	措施	效果	环境	费用
SVM	0.9377	0.8083	0.6363	0.7424	0.6363	0.3792
CNN	0.9628	0.9580	0.8488	0.8090	0.8186	0.8026
CNN+MS	0.9653	0.9333	0.8427	0.8501	0.7621	0.7145
CNN+TL	-	-	-	-	0.8369	0.8375
CNN+MS+TL	-	-	-	-	0.7483	0.7554

(注：SVM为支持向量机;CNN为单一卷积神经网络;CNN+MS为卷积神经网络+混合采样;CNN+TL为卷积神经网络+迁移学习;CNN+MS+TL为卷积神经网络+混合采样+迁移学习。下同。）

新窗口打开| 下载CSV

表6 不同主题数据集分类模型召回率

Table 6 Recall of Classification Models for Different Topic Datasets

算法	态度	能力	措施	效果	环境	费用
SVM	0.908	0.7648	0.6243	0.7097	0.6243	0.2336
CNN	0.8956	0.7998	0.8193	0.7062	0.6617	0.5337
CNN+MS	0.8957	0.8288	0.8418	0.7535	0.7339	0.6236
CNN+TL	-	-	-	-	0.6948	0.5518
CNN+MS+TL	-	-	-	-	0.8038	0.6818

新窗口打开| 下载CSV

表7 不同主题数据集分类模型F1值

Table 7 F1 Value of Classification Models for Different Topic Datasets

算法	态度	能力	措施	效果	环境	费用
SVM	0.9221	0.8190	0.6747	0.7244	0.6195	0.2850
CNN	0.9277	0.8678	0.8322	0.7527	0.7235	0.6319
CNN+MS	0.9289	0.8764	0.8406	0.7970	0.7433	0.6541
CNN+TL	-	-	-	-	0.7560	0.6556
CNN+MS+TL	-	-	-	-	0.7724	0.7124

新窗口打开| 下载CSV

相比于以SVM为代表的机器学习算法,本文的端到端卷积神经网络深度模型在大部分主题分类任务上取得了较好的效果,特别是对于不均衡样本数据的分类任务。深度学习模型相比SVM,在准确率、召回率以及F1值上都有明显的提升。相比单一的CNN模型,本文提出的混合采样方法主要是通过提升样本预测的召回率,从而提升模型的整体分类效果;而采用迁移学习的方法相比于单一的CNN模型在准确率、召回率上都有明显提升,因而整体的分类效果得到提升。在此基础上,本文基于混合采样与迁移学习的分类模型（CNN+MS+TL）相比其他模型取得了更好的分类效果（环境主题F1值0.7724,费用主题F1值 0.7124）。

从原因上推测,笔者认为：

（1）传统机器学习模型进行分类建模时,特征表示、特征提取以及特征学习的过程是相互割裂的,不能很好地表示文本语义特征,进行相应处理的过程中也会丢失很多重要的语义特征,从而分类效果不理想。而本文采用的深度学习网络是一个端到端的模型,输入端为文本的整体分布式表示信息,通过卷积神经网络进行语义特征的抽取,在全连接层进行分类预测,整个模型由深度网络模型自主调控,减少了人为干预所产生的语义丢失等问题,所以能够获得更好的预测效果。值得注意的是,SVM模型在态度主题上取得的效果与CNN相接近,态度主题数据集中大部分文本会直接涉及态度一词,而SVM模型由此能够很好地捕捉浅层次语义信息,构建对应的支持向量,从而取得很好的效果,由此也反映出以SVM为代表的传统机器学习模型相比深度神经网络,对于深层次语义信息的捕捉能力更为薄弱。

（2）采用混合采样技术,在训练集通过对小类样本、大类样本的分开采样,有效保证批数据训练时样本的均衡性,能够使得模型更多地关注小类样本,捕捉其中的语义信息,从而有效提升小类样本的召回率,以此提升模型的整体预测能力。

（3）本文引入迁移学习的思想,在均衡样本数据上训练模型,并作为不均衡样本的初始化模型。通过统计标签的共现情况,发现环境主题-态度主题,费用主题-措施主题具有很高的共现频次,符合患者实际的语用环境,所以在进行迁移学习时均衡样本的领域知识对不均衡样本的学习是有效的,从实验结果来看也是一致的。

5 结语

对于患者评论识别中的样本不均衡问题,本文提出一种基于混合采样与迁移学习的方法,并采用端到端的卷积神经网络进行建模与预测,混合采样能够使得模型有效地关注不均衡样本中的小类样本数据,以学习到其中的语义信息;迁移学习能够使得不均衡样本数据的分类模型学习到均衡样本数据中的近似领域知识;端到端的卷积神经网络能够以词向量嵌入的形式对文本进行分布式的表示,作为模型的输入,并将输入层、特征提取层、预测层纳入整体的模型中,从而捕捉文本中的深层次语义信息。实验结果显示,本文方法在准确率、召回率以及F1值上都有很好的提升,表明该方法是切实可行的。

本研究的局限在于：一是采样方法可以进一步完善,比如考虑在批次训练时根据模型对样本预测置信度动态更新采样概率;二是为了更好证明混合采样和迁移学习方法对不均衡数据的处理效果,需要进一步在公开数据集上进行验证。在未来的研究中将针对这几个方面对深度模型与采样方法进行优化,并采用本文所提方法与人工监督相结合的方法对语料库进行扩充。

作者贡献声明

向菲：论文选题确定,论文最终版本修订;

谢耀谈：数据采集与处理,论文撰写与修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: shelton@hust.edu.com。

[1] 谢耀谈.annotation.csv.患者评论主题语料库.

[2] 谢耀谈.实验结果.xlsx.模型训练结果统计.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Hao

, Zhang

, Wang

, et al.

A Tale of Two Countries: International Comparison of Online Doctor Reviews Between China and the United States

[J]. International Journal of Medical Informatics, 2017,99:37-44.

检索词推荐：