肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *
华中科技大学医药卫生管理学院 武汉 430073
Identifying Entities of Online Questions from Cancer Patients Based on Transfer Learning
School of Medicine and Health Management, Huazhong University of Science and Technology, Wuhan 430073, China
通讯作者: 夏晨曦, ORCID: 0000-0001-8913-5849, E-mail:xcxxdy@hust.edu.cn
收稿日期: 2019-06-14 修回日期: 2019-08-8 网络出版日期: 2019-12-25
基金资助: |
|
Received: 2019-06-14 Revised: 2019-08-8 Online: 2019-12-25
【目的】充分利用源领域标注语料和可重用的字嵌入预训练模型, 解决目标领域标注语料稀缺的命名实体识别问题。【方法】选择以肺癌和肝癌为主题的患者在线问诊文本作为实验数据, 提出一种结合实例迁移和模型迁移的KNN-BERT-BiLSTM-CRF框架, 对仅有少量标注的肝癌患者提问文本进行跨领域命名实体识别。【结果】当实例迁移的k值设置为3时, KNN-BERT-BiLSTM-CRF模型的实体识别效果最优, F值为96.10%, 相对无实例迁移提高了1.98%。【局限】该方法针对其他差异度较大的目标领域, 如不同数据源或病种的实体识别迁移效果还有待验证。【结论】当目标领域标注语料有限时, 可借助大型预训练模型的先验知识和领域外标注语料, 使用跨领域迁移学习方法, 提高命名实体识别的性能。
关键词:
[Objective] This study utilizes annotated corpus with a pre-trained model, aiming to identify entities from corpus of limited annotation. [Methods] First, we collected online questions from patients with lung or liver cancers. Then we developed a KNN-BERT-BiLSTM-CRF framework combining instance and parameter transfer, which recognized named entities with small amount of labeled data. [Results] When the k value of instance-transfer was set to 3, we achieved the best performance of named entity recognition. Its F value was 96.10%, which was 1.98% higher than the performance of models with no instance-transfer techniques. [Limitations] The proposed method needs to be examined with entities of other diseases. [Conclusions] The cross-domain transfer learning method could improve the performance of entity identification.
Keywords:
本文引用格式
陈美杉, 夏晨曦.
Chen Meishan.
1 引 言
2019年2月28日, 中国互联网络中心(CNNIC)发布的第43次中国互联网发展状况统计报告显示, 截至2018年12月, 我国网民规模达8.29亿, 较2017年底增加3.8%[1]。在大数据时代, 越来越多的人们倾向借助互联网进行信息的检索和交换, 尤其在医疗领域, 在线预约挂号、在线问诊、远程医疗等应用大大提高了就医效率, 在一定程度上缓解了医疗资源分配不均衡、不充分的问题[2]。与传统的以医生为中心的医疗信息服务不同, 如今的互联网健康社区具有高度的社交互动性和参与度, 提供了医生与患者和患者之间的信息交流途径[3]。为了更好地聆听患者的声音, 提供以患者为中心的服务, 面对爆炸式增长的互联网患者提问数据, 如何进行信息提取和有效利用成为重要的研究方向。
为解决标注资源匮乏领域的命名实体识别问题, 本文提出一种面向跨领域命名实体识别的KNN-BERT- BiLSTM-CRF框架, 借助领域外资源进行知识迁移。
2 研究背景
2.1 命名实体识别相关研究
命名实体识别任务是指在给定文本中确定实体边界, 并将其划分至特定类别, 如人名、地名、机构名的识别。作为自然语言处理领域的基础任务, 命名实体识别可应用于如信息提取、关系提取、问答系统等下游任务。自1996年第6届消息理解会议[6]首次提出命名实体识别任务至今, 相关技术得到了广泛的研究和发展。从早期基于统计和手工编写规则的方法, 到基于特征工程和机器学习的方法, 包括条件随机场(Conditional Random Field, CRF)[7]、隐马尔可夫模型(Hidden Markov Model, HMM)[8]、最大熵模型(Maximum Entropy, ME)[9]等, 命名实体识别的性能得到了较大提升。近年来, 随着神经网络的发展, 由于循环神经网络(Recurrent Neural Network, RNN)[10]能够有效捕捉句子的上下文信息, 尤其擅长序列标记任务, 而且基于循环神经网络改进的长短时记忆模型(Long-Short Term Memory, LSTM)[11]可以有效克服长距离依赖问题, 因此大量研究选择基于双向长短时记忆模型(Bi-directional LSTM, Bi-LSTM)[12], 根据上下文信息进行文本特征提取, 并结合条件随机场方法进行命名实体识别[13]。
2.2 基于迁移学习的命名实体识别研究
(1) 基于实例的迁移学习原理是通过调节源领域和目标领域的数据权重, 借助源领域样本丰富目标任务训练数据, 实现迁移学习任务。例如, 高冰涛等[36]在隐马尔可夫模型的基础上, 利用数据引力方法评估源域样本权重, 提出基于权值的隐马尔可夫模型, 通过在GENIA语料库中对蛋白质实体的识别实验, 证明该迁移方法只需少量目标领域标注样本即可得到良好的命名实体识别性能。王红斌等[37]基于TrAdaboost算法[17]进行改进, 通过对源领域和目标领域数据权值的自动调整, 进行基于样本选择的迁移学习, 实验证明该方法能够在新兴的、缺乏标准训练语料的领域, 获得较好的命名实体识别效果。以上基于实例的迁移方法, 在一定程度上解决了领域适配和负迁移问题, 但其识别效果依赖于源领域的标注数量和质量, 当标注量不足或质量较差时, 迁移效果也会随之受到影响。
(3) 基于模型的迁移学习原理是通过对领域间模型和参数的共享, 实现对目标任务的迁移。如Giorgi等[32]利用深度神经网络, 在大型有噪声的生物医学数据集进行模型的训练, 然后将参数迁移至小型目标数据集, 实验结果与最新基线模型相比, 平均错误率降低了约9%, 证明了该模型迁移方法应用于生物医学领域命名实体识别的有效性。Corbett等[33]使用GloVe[39]对生物医学相关语料进行词向量的预训练, 并与传统深度学习方法结合, 实现了基于两阶段训练的模型迁移。经实验对比, 证明了该方法可显著提升无迁移的深度学习模型效果。由于模型迁移在一定程度上降低了对目标领域标注数据量以及特征分布的要求, 且基于大量数据预训练的网络模型具有可重复利用、泛化能力强等特点, 使得模型迁移方法成为自然语言处理领域的重要研究方向。
2.3 BERT
2018年10月, 谷歌发布了自然语言处理领域的BERT语言模型[40], 凭借其强大的性能刷新了11项自然语言处理任务记录。作为首个在模型所有层中实现双向训练的语言模型, BERT融合了ELMo[41]和OpenAI GPT[42]的优点。以BERT-Base为例, 模型采用两阶段的训练方式, 首先利用Transformer编码器进行特征抽取, 通过遮蔽语言模型(Masked Language Model, MLM)与下一句预测(Next Sentence Prediction, NSP)相结合的训练方法, 对中文维基百科语料进行第一阶段的预训练, 然后允许针对不同的目标任务, 在预训练模型的基础上进行特征集成(Feature-based)或微调(Fine-tuning)。
在实际应用中, 经过大量数据预训练的网络结构可以为目标学习任务提供丰富的先验知识, 节省训练大型神经网络的时间成本, 提高模型的泛化能力和鲁棒性, 同时还能节省大量的人工标注工作, 有利于更好地处理小数据问题和个性化问题。例如, 针对生物医学领域的文本挖掘任务, Si等[43]通过比较传统词嵌入方法Word2Vec、GloVe、fastText与上下文嵌入BERT、ELMo方法在临床文本中的概念提取能力, 展示了上下文嵌入方法的强大性能。Lee等[44]在BERT模型的基础上加入PubMed摘要以及PubMed Central全文进行额外的预训练, 提出一种针对临床文本的深度表示模型BioBERT, 在实体识别、关系提取、问答系统等任务中, 取得了优秀的性能。
因此, 本文在迁移实验中, 尝试将BERT-Base中文预训练模型与BiLSTM-CRF结合, 检验其在标注资源稀缺领域的命名实体识别问题和改进机器学习算法上的效果, 以期为基于小数据的命名实体识别任务提供借鉴。
3 研究方法
3.1 KNN-BERT-BiLSTM-CRF模型
本文基于深度学习理论, 结合迁移学习方法, 提出KNN-BERT-BiLSTM-CRF模型。模型总体结构如图1所示, 包括实例迁移和模型迁移两部分。
图1
(1) 实例迁移
在实例迁移部分, 首先使用Python的jieba工具包对源领域和目标领域语料进行分词处理。由于提问文本具有口语化的特征, 且涉及大量疾病名称、药物名称等医疗领域专业词汇, 因此在分词过程中引入百度停用词表以及搜狗输入法中的医学词库作为用户词典, 以保证分词质量。
(2) 模型迁移
在模型迁移部分, 利用BERT-Base中文预训练模型, 结合深度学习框架BiLSTM-CRF进行微调, 得到实体预测结果。
BERT模型接受实例迁移扩展集的文本及标签序列作为输入部分, 输入表示体现为词嵌入、句子嵌入和位置嵌入的向量叠加, 分别代表词语信息、句子信息和位置信息。由于实验语料为单句输入, 所以使用sentence A嵌入表示句子信息, 以符号[CLS]和[SEP]插入句首和句尾表示句子序列, 如图2所示。
图2
在微调过程中, 输入表示经过Transformer网络结构, 获得字向量输出, 在预测实体类别时, 模型将字向量输入深度学习框架BiLSTM-CRF, 利用双向长短时记忆模型, 实现特征的自动提取, 得到每个标签的预测分值, 在解码过程中, 利用CRF层针对预测分值计算全局最优解, 从而获得模型对实体标签的最终预测结果, 如图3所示。
图3
4 实验与结果分析
4.1 数据集与标注工作
图4
表1 命名实体目录
实体类型 | 简洁定义 | 例子 | 目标领域标注数量 | 源领域标注数量 |
---|---|---|---|---|
身体部位 | 包括器官, 身体部位和组织 | 头部, 颈部 | 1 359 | 6 876 |
细胞实体 | 包括细胞、分子或细胞层面的解剖实体 | 血红蛋白,巨细胞 | 130 | 398 |
诊断程序 | 包括用于诊断的检测和活检程序 | 活检, CT, b超, 铁含量 | 156 | 1 102 |
药物 | 包括用于治疗目的的物质 | 华蟾素胶囊, 吗啡 | 259 | 1 805 |
度量 | 一个命名实体的核心属性, 如药物的剂量 | 10 mg, 2% | 78 | 257 |
个体 | 包括个人(性别、年龄等)和人口群体 | 父亲, 女性, 16岁 | 1 188 | 2 506 |
问题 | 包括疾病、症状、异常和并发症 | 疼痛, 破裂, 肺癌, 肿瘤 | 4 975 | 25 427 |
治疗程序 | 指程序或医学、设备用于治疗以及未指明的植入预防手术干预 | 肾镜切除, 植入, 化疗 | 1 003 | 4 169 |
癌症分期 | 决定癌症发展与扩散程度的方法 | 早期, 前期, 晚期 | 1 142 | 4 304 |
4.2 对比方法
为检验迁移效果, 将本文提出的模型与BERT- BiLSTM-CRF、Word2Vec-BiLSTM-CRF和KNN- Word2Vec-BiLSTM-CRF三组基线方法进行对比。模型的搭建基于TensorFlow框架, 具体参数设置如表3所示。
表3 模型参数设置
网络层 | 参数 | 取值 |
---|---|---|
Doc2Vec | 算法 | DM |
窗口大小 | 5 | |
最小词频 | 5 | |
学习率 | 由0.025递减至0.001 | |
向量维度 | 100 | |
BERT | 批处理大小 | 32 |
学习率 | 2e-5 | |
样本最大长度 | 128 | |
迭代次数 | 10 | |
优化方法 | Adam | |
BiLSTM | L2正则化 | 0.001 |
迭代次数 | 10 | |
Dropout | 0.5 | |
Word2Vec | 算法 | Skip-gram |
窗口大小 | 5 | |
学习率 | 由0.025递减至0.001 | |
最小词频 | 3 | |
向量维度 | 100 |
4.3 实验结果与分析
实验数据集的划分借鉴Giorgi等[32]的研究, 将目标领域数据集中60%的样本作为训练集, 10%作为验证集, 30%用于识别结果预测的测试集。
实验评价指标借鉴CoNLL任务[50], 采用准确率(Precision, P)、召回率(Recall, R)和F1值(F1-measure, F)进行命名实体识别的效果评价。仅当整个实体的预测标签与该实体标签完全匹配时, 说明实体预测正确。
(1) 模型迁移对比实验
为检验BERT模型对传统词向量表示方法的提升效果, 基于目标数据集进行Word2Vec-BiLSTM-CRF与BERT-BiLSTM-CRF模型的对比实验, 结果如表4所示。对比无迁移的Word2Vec-BiLSTM-CRF模型, 使用BERT预训练模型进行知识迁移的方法, F值整体提高了7.86%, 证明了BERT模型应用于中文生物医学领域命名实体识别任务的有效性。
表4 模型迁移实验结果对比
模型 | P(%) | R(%) | F(%) |
---|---|---|---|
Word2Vec-BiLSTM-CRF | 85.98 | 86.55 | 86.26 |
BERT-BiLSTM-CRF | 92.91 | 95.36 | 94.12 |
为进一步探究有标注的训练数据量对模型迁移效果的影响, 实验在验证集和测试集保持不变的基础上, 通过改变目标训练集的大小, 进行模型迁移效果对比, 如图5所示。实验结果表明, 两种方法的F值都随着训练样本的增加而提升, 对比无迁移模型, 使用模型迁移方法对F值的提升效果随训练样本的增加而逐渐放缓, 但整体来看, 该方法的识别性能仍具有显著优势。同时显示, 模型迁移方法只需更少的标注语料便可得到与无迁移方法相比更佳的识别性能。例如, 在本实验中, 当使用30%的训练数据时, 模型迁移方法的F值高于使用60%训练数据的无迁移模型, 证明了基于BERT预训练模型进行微调的方法, 可显著降低传统机器学习方法对目标领域标注量的要求, 从而有效减轻人工标注的负担, 实现对小数据的利用。
图5
(2) 实例迁移对比实验
表5 实例迁移实验结果对比(%)
模型 | 评价 指标 | k=0 | k=1 | k=2 | k=3 | k=4 | k=5 | k=6 |
---|---|---|---|---|---|---|---|---|
KNN-BERT- BiLSTM-CRF | P | 92.91 | 93.54 | 94.89 | 95.74 | 95.40 | 94.73 | 94.60 |
R | 95.36 | 95.74 | 96.51 | 96.75 | 96.24 | 96.30 | 95.68 | |
F | 94.12 | 94.63 | 95.69 | 96.10 | 95.82 | 95.51 | 95.14 | |
KNN-Word2Vec-BiLSTM-CRF | P | 85.98 | 88.73 | 90.45 | 91.48 | 91.65 | 91.03 | 90.77 |
R | 86.55 | 89.57 | 91.30 | 92.48 | 92.62 | 92.05 | 91.90 | |
F | 86.26 | 89.15 | 90.87 | 91.98 | 92.13 | 91.54 | 91.33 |
实验结果显示, 随着k值的增加, 迁移效果整体呈现出先上升后下降的趋势, 如图6和图7所示。在KNN-BERT-BiLSTM-CRF模型中, 当k取3时, 识别效果最佳, F值为96.10%, 较基线方法BERT- BiLSTM-CRF提高了1.98%; 在KNN-Word2Vec- BiLSTM-CRF模型中, 当k=4时得到最优结果, F值为92.13%, 较基线方法Word2Vec-BiLSTM-CRF提高了5.87%。随着k值继续增大, 训练集引入了更多的领域外数据, 这些样本与目标领域样本的相似度逐渐降低, 在迭代过程中形成的累积噪声对迁移性能产生负面影响, 造成了负迁移现象。因此, 根据反馈结果, 分别选取k=3和k=4作为实例迁移最佳阈值。
图6
图7
当实例迁移取最佳阈值时, 从表6可以看出, 本文提出的KNN-BERT-BiLSTM-CRF模型获得了最佳识别性能, F值为96.10%。证明了该实例迁移方法可在模型迁移的基础上, 通过对源领域的知识迁移, 进一步提升模型的识别效果。同时, 多组对比实验表明, 实例迁移效果未必随训练样本规模增大而持续提升, 当扩展集加入过多领域外样本时, 反而会出现负迁移现象。
表6 综合实验结果对比
模型 | P(%) | R(%) | F(%) |
---|---|---|---|
Word2Vec-BiLSTM-CRF | 85.98 | 86.55 | 86.26 |
KNN-Word2Vec-BiLSTM-CRF(k=4) | 91.65 | 92.62 | 92.13 |
BERT-BiLSTM-CRF | 92.91 | 95.36 | 94.12 |
KNN-BERT-BiLSTM-CRF(k=3) | 95.47 | 96.75 | 96.10 |
5 结 语
本文选择以肝癌和肺癌为主题的患者在线提问文本作为实验数据, 提出一种面向标注资源稀缺领域的命名实体识别框架KNN-BERT-BiLSTM-CRF。该模型在迁移实验中的最佳F值达到96.10%, 优于基线方法Word2Vec-BiLSTM-CRF、BERT-BiLSTM-CRF以及KNN-Word2Vec-BiLSTM-CRF, 与人类识别水平相当。实验结果表明, 该迁移方法只需利用少量标注语料, 便可有效识别肝癌患者提问文本中的个人信息、疾病症状、诊疗情况和药物使用等实体, 实现对现有数据资源的充分利用, 同时为相关疾病研究和自然语言处理研究提供参考。
本文的局限主要在于以下两方面: 首先, 由于患者在线提问文本具有口语化、噪声大、特征稀疏等特点, 存在大量错别字、缩写现象, 增加了实体识别的难度。未来研究中, 可考虑在文本预处理阶段, 加入对错别字的自动修正, 以减少噪声数据的影响, 从而进一步提高命名实体识别性能。其次, 实验仅对单一目标领域即肝癌患者提问文本进行迁移, 未涉及其他疾病类型或数据来源等因素。为进一步解决领域适配问题, 后续研究可引入更多不同数据源和疾病种类的数据, 验证模型的性能。
作者贡献声明
夏晨曦: 提出研究思路, 设计研究方案;
陈美杉: 实验操作, 论文撰写与修改。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail: 632958961@qq.com。
[1] 陈美杉. 中文跨领域命名实体识别数据.zip. 中文跨领域命名实体识别数据.
参考文献
第43次《中国互联网络发展状况统计报告》
[R/OL]. (
The 43rd China Statistical Report on Internet Development in China
[R/OL]. (
The Creation of Social Value: Can an Online Health Community Reduce Rural-urban Health Disparities?
[J].
A New Dimension of Health Care: Systematic Review of the Uses, Benefits, and Limitations of Social Media for Health Communication
[J].
序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例
[J].
Research on Feature Extraction Scheme of Chinese-character Granularity in Sequence Labeling Model: A Case Study About Clinical Named Entity Recognition of CCKS2017: Task2
[J].
基于特征耦合泛化的药名实体识别
[J].
Drug Name Entity Recognition Based on Feature Coupling Generalization
[J].
Message Understanding Conference-6: A Brief History
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
Nymble: A High-performance Learning Name-finder
Maximum Entropy Models for Named Entity Recognition
Learning Task-dependent Distributed Representations by Backpropagation Through Structure
Long Short-Term Memory
[J].
Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures
[J].
An Overview of Named Entity Recognition
Domain Adaptation with Structural Correspondence Learning
Instance Weighting for Domain Adaptation in NLP
Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks
[OL].
Boosting for Transfer Learning
Transferring Naive Bayes Classifiers for Text Classification
Co-clustering Based Classification for Out-of-domain Documents
Topic-bridged PLSA for Cross-domain Text Classification
Domain Adaptation via Transfer Component Analysis
[J].
Cross Domain Distribution Adaptation via Kernel Mapping
一种基于跨领域典型相关性分析的迁移学习方法
[J].
A Transfer Learning Based on Canonical Correlation Analysis Across Different Domains
[J].
Transfer Learning for Class Imbalance Problems with Inadequate Data
[J].
A Transfer Cost-sensitive Boosting Approach for Cross-project Defect Prediction
[J].
Cross-domain Sentiment Classification via Spectral Feature Alignment
Automatically Extracting Polarity-bearing Topics for Cross-domain Sentiment Classification
Transitive Transfer Learning
基于迁移学习微博情绪分类研究——以H7N9微博为例
[J].
Microblog Emotion Classification Based on Transfer Learning:A Case Study of Microblogs about H7N9
[J].
Cross-domain Sentiment Classification via Topic-related TrAdaBoost
基于深度循环神经网络的跨领域文本情感分析
[J].
A Cross-domain Text Sentiment Analysis Based on Deep Recurrent Neural Network
[J].
Transfer Learning for Biomedical Named Entity Recognition with Neural Networks
[J].
Chemlistem: Chemical Named Entity Recognition Using Recurrent Neural Networks
[J].
A Survey on Concept Drift Adaptation
[J].
A Survey on Transfer Learning
[J].
BioTrHMM:基于迁移学习的生物医学命名实体识别算法
[J].
BioTrHMM: Named Entity Recognition Algorithm Based on Transfer Learning in Biomedical Texts
[J].
融合迁移学习的中文命名实体识别
[J].
Research on Chinese Named Entity Recognition Fusing Transfer Learning
[J].
Transfer Joint Embedding for Cross-Domain Named Entity Recognition
[J].
GloVe: Global Vectors for Word Representation
Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding
[OL].
Deep Contextualized Word Representations
[OL].
Improving Language Understanding by Generative Pre-training
[OL]. [
Enhancing Clinical Concept Extraction with Contextual Embedding
[OL].
Biobert: Pre-trained Biomedical Language Representation Model for Biomedical Text Mining
[OL].
Distributed Representations of Sentences and Documents
Nearest Neighbor Pattern Classification
[J].
健康领域中文自动问答的问题解析研究——以肺癌为例
[D].
Question Analysis of Chinese Automatic Question Answering in Health Field: A Case of Lung Cancer
[D].
Semantic Annotation of Consumer Health Questions
[J].
Agreement, the F-measure, and Reliability in Information Retrieval
[J].
Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition
/
〈 |
|
〉 |
