数据分析与知识发现, 2019, 3(12): 61-69 doi: 10.11925/infotech.2096-3467.2019.0684

研究论文

肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *

陈美杉, 夏晨曦,,

华中科技大学医药卫生管理学院 武汉 430073

Identifying Entities of Online Questions from Cancer Patients Based on Transfer Learning

Chen Meishan, Xia Chenxi,,

School of Medicine and Health Management, Huazhong University of Science and Technology, Wuhan 430073, China

通讯作者: 夏晨曦, ORCID: 0000-0001-8913-5849, E-mail:xcxxdy@hust.edu.cn

收稿日期: 2019-06-14   修回日期: 2019-08-8   网络出版日期: 2019-12-25

基金资助: *本文系中央高校基本科研业务费自主创新基金项目“面向社交网络的情感分析与观点挖掘方法研究”.  项目编号: 0118516036

Received: 2019-06-14   Revised: 2019-08-8   Online: 2019-12-25

摘要

【目的】充分利用源领域标注语料和可重用的字嵌入预训练模型, 解决目标领域标注语料稀缺的命名实体识别问题。【方法】选择以肺癌和肝癌为主题的患者在线问诊文本作为实验数据, 提出一种结合实例迁移和模型迁移的KNN-BERT-BiLSTM-CRF框架, 对仅有少量标注的肝癌患者提问文本进行跨领域命名实体识别。【结果】当实例迁移的k值设置为3时, KNN-BERT-BiLSTM-CRF模型的实体识别效果最优, F值为96.10%, 相对无实例迁移提高了1.98%。【局限】该方法针对其他差异度较大的目标领域, 如不同数据源或病种的实体识别迁移效果还有待验证。【结论】当目标领域标注语料有限时, 可借助大型预训练模型的先验知识和领域外标注语料, 使用跨领域迁移学习方法, 提高命名实体识别的性能。

关键词: BERT ; BiLSTM ; 命名实体识别 ; 迁移学习

Abstract

[Objective] This study utilizes annotated corpus with a pre-trained model, aiming to identify entities from corpus of limited annotation. [Methods] First, we collected online questions from patients with lung or liver cancers. Then we developed a KNN-BERT-BiLSTM-CRF framework combining instance and parameter transfer, which recognized named entities with small amount of labeled data. [Results] When the k value of instance-transfer was set to 3, we achieved the best performance of named entity recognition. Its F value was 96.10%, which was 1.98% higher than the performance of models with no instance-transfer techniques. [Limitations] The proposed method needs to be examined with entities of other diseases. [Conclusions] The cross-domain transfer learning method could improve the performance of entity identification.

Keywords: BERT ; BiLSTM ; Named Entity Recognition ; Transfer Learning

PDF (597KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

陈美杉, 夏晨曦. 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *. 数据分析与知识发现[J], 2019, 3(12): 61-69 doi:10.11925/infotech.2096-3467.2019.0684

Chen Meishan. Identifying Entities of Online Questions from Cancer Patients Based on Transfer Learning. Data Analysis and Knowledge Discovery[J], 2019, 3(12): 61-69 doi:10.11925/infotech.2096-3467.2019.0684

1 引 言

2019年2月28日, 中国互联网络中心(CNNIC)发布的第43次中国互联网发展状况统计报告显示, 截至2018年12月, 我国网民规模达8.29亿, 较2017年底增加3.8%[1]。在大数据时代, 越来越多的人们倾向借助互联网进行信息的检索和交换, 尤其在医疗领域, 在线预约挂号、在线问诊、远程医疗等应用大大提高了就医效率, 在一定程度上缓解了医疗资源分配不均衡、不充分的问题[2]。与传统的以医生为中心的医疗信息服务不同, 如今的互联网健康社区具有高度的社交互动性和参与度, 提供了医生与患者和患者之间的信息交流途径[3]。为了更好地聆听患者的声音, 提供以患者为中心的服务, 面对爆炸式增长的互联网患者提问数据, 如何进行信息提取和有效利用成为重要的研究方向。

作为信息抽取的子任务, 命名实体识别(Named Entity Recognition, NER)方法可从非结构化文本中, 抽取蛋白质、疾病名、药物名等实体[4,5]。而互联网患者提问文本具有噪声大、用词不规范等特点, 为实体识别工作带来了一定挑战。另外, 现有命名实体识别研究大多基于传统的统计机器学习方法, 需要训练数据与测试数据具有相同分布, 且对数据量有一定要求, 尤其当研究数据具有较强时效性时, 需要大量人工标注的传统机器学习方法往往不再适用。

为解决标注资源匮乏领域的命名实体识别问题, 本文提出一种面向跨领域命名实体识别的KNN-BERT- BiLSTM-CRF框架, 借助领域外资源进行知识迁移。

2 研究背景

2.1 命名实体识别相关研究

命名实体识别任务是指在给定文本中确定实体边界, 并将其划分至特定类别, 如人名、地名、机构名的识别。作为自然语言处理领域的基础任务, 命名实体识别可应用于如信息提取、关系提取、问答系统等下游任务。自1996年第6届消息理解会议[6]首次提出命名实体识别任务至今, 相关技术得到了广泛的研究和发展。从早期基于统计和手工编写规则的方法, 到基于特征工程和机器学习的方法, 包括条件随机场(Conditional Random Field, CRF)[7]、隐马尔可夫模型(Hidden Markov Model, HMM)[8]、最大熵模型(Maximum Entropy, ME)[9]等, 命名实体识别的性能得到了较大提升。近年来, 随着神经网络的发展, 由于循环神经网络(Recurrent Neural Network, RNN)[10]能够有效捕捉句子的上下文信息, 尤其擅长序列标记任务, 而且基于循环神经网络改进的长短时记忆模型(Long-Short Term Memory, LSTM)[11]可以有效克服长距离依赖问题, 因此大量研究选择基于双向长短时记忆模型(Bi-directional LSTM, Bi-LSTM)[12], 根据上下文信息进行文本特征提取, 并结合条件随机场方法进行命名实体识别[13]

2.2 基于迁移学习的命名实体识别研究

在自然语言处理领域, 迁移学习方法主要应用于跨领域序列标注[14,15,16]、文本分类[17,18,19,20,21,22,23,24,25]、情感分类[26,27,28,29,30,31]、命名实体识别[32,33]等任务。由于领域间的数据分布存在差异, 在实际迁移过程中往往面临概念漂移[34]和负迁移[35]问题。为解决以上问题, 现有的跨领域命名实体识别迁移学习方法主要从基于实例、特征和模型的角度展开研究。

(1) 基于实例的迁移学习原理是通过调节源领域和目标领域的数据权重, 借助源领域样本丰富目标任务训练数据, 实现迁移学习任务。例如, 高冰涛等[36]在隐马尔可夫模型的基础上, 利用数据引力方法评估源域样本权重, 提出基于权值的隐马尔可夫模型, 通过在GENIA语料库中对蛋白质实体的识别实验, 证明该迁移方法只需少量目标领域标注样本即可得到良好的命名实体识别性能。王红斌等[37]基于TrAdaboost算法[17]进行改进, 通过对源领域和目标领域数据权值的自动调整, 进行基于样本选择的迁移学习, 实验证明该方法能够在新兴的、缺乏标准训练语料的领域, 获得较好的命名实体识别效果。以上基于实例的迁移方法, 在一定程度上解决了领域适配和负迁移问题, 但其识别效果依赖于源领域的标注数量和质量, 当标注量不足或质量较差时, 迁移效果也会随之受到影响。

(2) 基于特征的迁移学习是指通过特征变换, 找到一个“好的”特征表示, 减少领域间的差异, 以提高模型的性能[35]。例如, Pan等[38]提出迁移联合嵌入(Transfer Joint Embedding, TJE)模型, 首先将不同领域的高维特征和标签映射到一个统一的低维空间, 然后在该低维空间中, 利用最近邻方法实现跨领域命名实体识别。但基于特征选择的迁移方法依赖于各领域数据的分布情况, 若数据分布过于稀疏, 则难以建立适宜的特征空间, 从而影响模型性能。

(3) 基于模型的迁移学习原理是通过对领域间模型和参数的共享, 实现对目标任务的迁移。如Giorgi等[32]利用深度神经网络, 在大型有噪声的生物医学数据集进行模型的训练, 然后将参数迁移至小型目标数据集, 实验结果与最新基线模型相比, 平均错误率降低了约9%, 证明了该模型迁移方法应用于生物医学领域命名实体识别的有效性。Corbett等[33]使用GloVe[39]对生物医学相关语料进行词向量的预训练, 并与传统深度学习方法结合, 实现了基于两阶段训练的模型迁移。经实验对比, 证明了该方法可显著提升无迁移的深度学习模型效果。由于模型迁移在一定程度上降低了对目标领域标注数据量以及特征分布的要求, 且基于大量数据预训练的网络模型具有可重复利用、泛化能力强等特点, 使得模型迁移方法成为自然语言处理领域的重要研究方向。

2.3 BERT

2018年10月, 谷歌发布了自然语言处理领域的BERT语言模型[40], 凭借其强大的性能刷新了11项自然语言处理任务记录。作为首个在模型所有层中实现双向训练的语言模型, BERT融合了ELMo[41]和OpenAI GPT[42]的优点。以BERT-Base为例, 模型采用两阶段的训练方式, 首先利用Transformer编码器进行特征抽取, 通过遮蔽语言模型(Masked Language Model, MLM)与下一句预测(Next Sentence Prediction, NSP)相结合的训练方法, 对中文维基百科语料进行第一阶段的预训练, 然后允许针对不同的目标任务, 在预训练模型的基础上进行特征集成(Feature-based)或微调(Fine-tuning)。

在实际应用中, 经过大量数据预训练的网络结构可以为目标学习任务提供丰富的先验知识, 节省训练大型神经网络的时间成本, 提高模型的泛化能力和鲁棒性, 同时还能节省大量的人工标注工作, 有利于更好地处理小数据问题和个性化问题。例如, 针对生物医学领域的文本挖掘任务, Si等[43]通过比较传统词嵌入方法Word2Vec、GloVe、fastText与上下文嵌入BERT、ELMo方法在临床文本中的概念提取能力, 展示了上下文嵌入方法的强大性能。Lee等[44]在BERT模型的基础上加入PubMed摘要以及PubMed Central全文进行额外的预训练, 提出一种针对临床文本的深度表示模型BioBERT, 在实体识别、关系提取、问答系统等任务中, 取得了优秀的性能。

因此, 本文在迁移实验中, 尝试将BERT-Base中文预训练模型与BiLSTM-CRF结合, 检验其在标注资源稀缺领域的命名实体识别问题和改进机器学习算法上的效果, 以期为基于小数据的命名实体识别任务提供借鉴。

3 研究方法

3.1 KNN-BERT-BiLSTM-CRF模型

本文基于深度学习理论, 结合迁移学习方法, 提出KNN-BERT-BiLSTM-CRF模型。模型总体结构如图1所示, 包括实例迁移和模型迁移两部分。

图1

图1   KNN-BERT-BiLSTM-CRF模型结构


(1) 实例迁移

在实例迁移部分, 首先使用Python的jieba工具包对源领域和目标领域语料进行分词处理。由于提问文本具有口语化的特征, 且涉及大量疾病名称、药物名称等医疗领域专业词汇, 因此在分词过程中引入百度停用词表以及搜狗输入法中的医学词库作为用户词典, 以保证分词质量。

为体现文本语义信息, 将分词结果转化成文档向量(Doc2Vec)[45], 然后利用K近邻(k-Nearest Neighbor, KNN)[46]方法, 针对每一个目标领域文档向量, 基于欧氏距离选择源领域中与其最为相似的k个样本, 加入实例迁移扩展集。最后, 经适当的k值选取, 实现基于样本选择的实例迁移过程。

(2) 模型迁移

在模型迁移部分, 利用BERT-Base中文预训练模型, 结合深度学习框架BiLSTM-CRF进行微调, 得到实体预测结果。

BERT模型接受实例迁移扩展集的文本及标签序列作为输入部分, 输入表示体现为词嵌入、句子嵌入和位置嵌入的向量叠加, 分别代表词语信息、句子信息和位置信息。由于实验语料为单句输入, 所以使用sentence A嵌入表示句子信息, 以符号[CLS]和[SEP]插入句首和句尾表示句子序列, 如图2所示。

图2

图2   BERT模型输入过程


在微调过程中, 输入表示经过Transformer网络结构, 获得字向量输出, 在预测实体类别时, 模型将字向量输入深度学习框架BiLSTM-CRF, 利用双向长短时记忆模型, 实现特征的自动提取, 得到每个标签的预测分值, 在解码过程中, 利用CRF层针对预测分值计算全局最优解, 从而获得模型对实体标签的最终预测结果, 如图3所示。

图3

图3   BERT模型微调过程


4 实验与结果分析

4.1 数据集与标注工作

本文采用赵冬[47]提供的肺癌患者在线提问文本作为源领域数据集, 共计11 822条。该数据集来自寻医问药和有问必答网肺癌社区中的真实用户提问, 已详细标注了实体名称以及实体关系。为保证迁移质量, 目标领域数据同样从以上网站获取, 经过去除重复数据及无关数据, 得到共2 000条肝癌患者提问文本。各领域数据集句长分布如图4所示。

图4

图4   各领域数据集句长占比


根据本文研究目的, 结合Kilicoglu等[48]针对消费者健康问题提出的17种生物医学命名实体, 通过咨询相关专家, 实验选择9种与癌症临床诊断密切相关的标签。标注工作中使用的命名实体目录如表1所示。

表1   命名实体目录

实体类型简洁定义例子目标领域标注数量源领域标注数量
身体部位包括器官, 身体部位和组织头部, 颈部1 3596 876
细胞实体包括细胞、分子或细胞层面的解剖实体血红蛋白,巨细胞130398
诊断程序包括用于诊断的检测和活检程序活检, CT, b超, 铁含量1561 102
药物包括用于治疗目的的物质华蟾素胶囊, 吗啡2591 805
度量一个命名实体的核心属性, 如药物的剂量10 mg, 2%78257
个体包括个人(性别、年龄等)和人口群体父亲, 女性, 16岁1 1882 506
问题包括疾病、症状、异常和并发症疼痛, 破裂, 肺癌, 肿瘤4 97525 427
治疗程序指程序或医学、设备用于治疗以及未指明的植入预防手术干预肾镜切除, 植入, 化疗1 0034 169
癌症分期决定癌症发展与扩散程度的方法早期, 前期, 晚期1 1424 304

新窗口打开| 下载CSV


根据以上9种实体标签的选择, 实验采用{B, I, O}标注体系, 由两名经过培训的标注人员对2 000条肝癌患者提问文本进行标注, 标注一致性检验达到较高水平, F值[49]为92%。实验中各领域数据集组成如表2所示。

表2   各领域数据集组成

名称类型数量(句)标注情况
源领域数据集肺癌11 822有标注
目标领域数据集肝癌2 000有标注

新窗口打开| 下载CSV


4.2 对比方法

为检验迁移效果, 将本文提出的模型与BERT- BiLSTM-CRF、Word2Vec-BiLSTM-CRF和KNN- Word2Vec-BiLSTM-CRF三组基线方法进行对比。模型的搭建基于TensorFlow框架, 具体参数设置如表3所示。

表3   模型参数设置

网络层参数取值
Doc2Vec算法DM
窗口大小5
最小词频5
学习率由0.025递减至0.001
向量维度100
BERT批处理大小32
学习率2e-5
样本最大长度128
迭代次数10
优化方法Adam
BiLSTML2正则化0.001
迭代次数10
Dropout0.5
Word2Vec算法Skip-gram
窗口大小5
学习率由0.025递减至0.001
最小词频3
向量维度100

新窗口打开| 下载CSV


4.3 实验结果与分析

实验数据集的划分借鉴Giorgi等[32]的研究, 将目标领域数据集中60%的样本作为训练集, 10%作为验证集, 30%用于识别结果预测的测试集。

实验评价指标借鉴CoNLL任务[50], 采用准确率(Precision, P)、召回率(Recall, R)和F1值(F1-measure, F)进行命名实体识别的效果评价。仅当整个实体的预测标签与该实体标签完全匹配时, 说明实体预测正确。

(1) 模型迁移对比实验

为检验BERT模型对传统词向量表示方法的提升效果, 基于目标数据集进行Word2Vec-BiLSTM-CRF与BERT-BiLSTM-CRF模型的对比实验, 结果如表4所示。对比无迁移的Word2Vec-BiLSTM-CRF模型, 使用BERT预训练模型进行知识迁移的方法, F值整体提高了7.86%, 证明了BERT模型应用于中文生物医学领域命名实体识别任务的有效性。

表4   模型迁移实验结果对比

模型P(%)R(%)F(%)
Word2Vec-BiLSTM-CRF85.9886.5586.26
BERT-BiLSTM-CRF92.9195.3694.12

新窗口打开| 下载CSV


为进一步探究有标注的训练数据量对模型迁移效果的影响, 实验在验证集和测试集保持不变的基础上, 通过改变目标训练集的大小, 进行模型迁移效果对比, 如图5所示。实验结果表明, 两种方法的F值都随着训练样本的增加而提升, 对比无迁移模型, 使用模型迁移方法对F值的提升效果随训练样本的增加而逐渐放缓, 但整体来看, 该方法的识别性能仍具有显著优势。同时显示, 模型迁移方法只需更少的标注语料便可得到与无迁移方法相比更佳的识别性能。例如, 在本实验中, 当使用30%的训练数据时, 模型迁移方法的F值高于使用60%训练数据的无迁移模型, 证明了基于BERT预训练模型进行微调的方法, 可显著降低传统机器学习方法对目标领域标注量的要求, 从而有效减轻人工标注的负担, 实现对小数据的利用。

图5

图5   训练集大小对迁移效果的影响


(2) 实例迁移对比实验

本文参考文献[51]进行k值实验范围的选择。因本文源领域样本数约为目标领域样本数的6倍, 设置k的实验范围为0-6, k=0表示扩展集中未添加源领域样例, k=6意味着在极端情况下, 扩展集中添加了所有源领域样例。根据不同的k值选取, KNN-BERT- BiLSTM-CRF与KNN-Word2Vec-BiLSTM-CRF模型的实例迁移对比实验结果如表5所示。

表5   实例迁移实验结果对比(%)

模型评价
指标
k=0k=1k=2k=3k=4k=5k=6
KNN-BERT-
BiLSTM-CRF
P92.9193.5494.8995.7495.4094.7394.60
R95.3695.7496.5196.7596.2496.3095.68
F94.1294.6395.6996.1095.8295.5195.14
KNN-Word2Vec-BiLSTM-CRFP85.9888.7390.4591.4891.6591.0390.77
R86.5589.5791.3092.4892.6292.0591.90
F86.2689.1590.8791.9892.1391.5491.33

新窗口打开| 下载CSV


实验结果显示, 随着k值的增加, 迁移效果整体呈现出先上升后下降的趋势, 如图6图7所示。在KNN-BERT-BiLSTM-CRF模型中, 当k取3时, 识别效果最佳, F值为96.10%, 较基线方法BERT- BiLSTM-CRF提高了1.98%; 在KNN-Word2Vec- BiLSTM-CRF模型中, 当k=4时得到最优结果, F值为92.13%, 较基线方法Word2Vec-BiLSTM-CRF提高了5.87%。随着k值继续增大, 训练集引入了更多的领域外数据, 这些样本与目标领域样本的相似度逐渐降低, 在迭代过程中形成的累积噪声对迁移性能产生负面影响, 造成了负迁移现象。因此, 根据反馈结果, 分别选取k=3和k=4作为实例迁移最佳阈值。

图6

图6   KNN-BERT-BiLSTM-CRF模型识别结果


图7

图7   KNN-Word2Vec-BiLSTM-CRF模型识别结果


当实例迁移取最佳阈值时, 从表6可以看出, 本文提出的KNN-BERT-BiLSTM-CRF模型获得了最佳识别性能, F值为96.10%。证明了该实例迁移方法可在模型迁移的基础上, 通过对源领域的知识迁移, 进一步提升模型的识别效果。同时, 多组对比实验表明, 实例迁移效果未必随训练样本规模增大而持续提升, 当扩展集加入过多领域外样本时, 反而会出现负迁移现象。

表6   综合实验结果对比

模型P(%)R(%)F(%)
Word2Vec-BiLSTM-CRF85.9886.5586.26
KNN-Word2Vec-BiLSTM-CRF(k=4)91.6592.6292.13
BERT-BiLSTM-CRF92.9195.3694.12
KNN-BERT-BiLSTM-CRF(k=3)95.4796.7596.10

新窗口打开| 下载CSV


5 结 语

本文选择以肝癌和肺癌为主题的患者在线提问文本作为实验数据, 提出一种面向标注资源稀缺领域的命名实体识别框架KNN-BERT-BiLSTM-CRF。该模型在迁移实验中的最佳F值达到96.10%, 优于基线方法Word2Vec-BiLSTM-CRF、BERT-BiLSTM-CRF以及KNN-Word2Vec-BiLSTM-CRF, 与人类识别水平相当。实验结果表明, 该迁移方法只需利用少量标注语料, 便可有效识别肝癌患者提问文本中的个人信息、疾病症状、诊疗情况和药物使用等实体, 实现对现有数据资源的充分利用, 同时为相关疾病研究和自然语言处理研究提供参考。

本文的局限主要在于以下两方面: 首先, 由于患者在线提问文本具有口语化、噪声大、特征稀疏等特点, 存在大量错别字、缩写现象, 增加了实体识别的难度。未来研究中, 可考虑在文本预处理阶段, 加入对错别字的自动修正, 以减少噪声数据的影响, 从而进一步提高命名实体识别性能。其次, 实验仅对单一目标领域即肝癌患者提问文本进行迁移, 未涉及其他疾病类型或数据来源等因素。为进一步解决领域适配问题, 后续研究可引入更多不同数据源和疾病种类的数据, 验证模型的性能。

作者贡献声明

夏晨曦: 提出研究思路, 设计研究方案;

陈美杉: 实验操作, 论文撰写与修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 632958961@qq.com。

[1] 陈美杉. 中文跨领域命名实体识别数据.zip. 中文跨领域命名实体识别数据.

参考文献

中国互联网络信息中心.

第43次《中国互联网络发展状况统计报告》

[R/OL]. ( 2019- 02- 28). http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201902/P020190318523029756345.pdf.

URL     [本文引用: 1]

( CNNIC.

The 43rd China Statistical Report on Internet Development in China

[R/OL]. ( 2019- 02- 28). http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201902/P020190318523029756345.pdf

URL     [本文引用: 1]

Goh J M, Gao G, Agarwal R .

The Creation of Social Value: Can an Online Health Community Reduce Rural-urban Health Disparities?

[J]. MIS Quarterly, 2016,40(1):247-263.

[本文引用: 1]

Moorhead S A, Hazlett D E, Harrison L , et al.

A New Dimension of Health Care: Systematic Review of the Uses, Benefits, and Limitations of Social Media for Health Communication

[J]. Journal of Medical Internet Research, 2013,15(4):e85.

[本文引用: 1]

孙安, 于英香, 罗永刚 , .

序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例

[J]. 图书情报工作, 2018,62(11):103-111.

[本文引用: 1]

( Sun An, Yu Yingxiang, Luo Yonggang , et al.

Research on Feature Extraction Scheme of Chinese-character Granularity in Sequence Labeling Model: A Case Study About Clinical Named Entity Recognition of CCKS2017: Task2

[J]. Library and Information Service, 2018,62(11):103-111.)

[本文引用: 1]

何林娜, 杨志豪, 林鸿飞 , .

基于特征耦合泛化的药名实体识别

[J]. 中文信息学报, 2014,28(2):72-77.

[本文引用: 1]

( He Linna, Yang Zhihao, Lin Hongfei , et al.

Drug Name Entity Recognition Based on Feature Coupling Generalization

[J]. Journal of Chinese Information Processing, 2014,28(2):72-77.)

[本文引用: 1]

Grishman R, Sundheim B .

Message Understanding Conference-6: A Brief History

[C]//Proceedings of the 16th International Conference on Computational Linguistics. 1996.

[本文引用: 1]

Lafferty J, McCallum A, Pereira F C N .

Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

[C]//Proceedings of the 18th International Conference on Machine Learning (ICML 2001). 2001: 282-289.

[本文引用: 1]

Bikel D M, Miller S, Schwartz R , et al.

Nymble: A High-performance Learning Name-finder

[C]// Proceedings of the 5th Conference on Applied Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 1997: 194-201.

[本文引用: 1]

Bender O, Och F J, Ney H .

Maximum Entropy Models for Named Entity Recognition

[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4. Association for Computational Linguistics, 2003: 148-151.

[本文引用: 1]

Goller C, Kuchler A .

Learning Task-dependent Distributed Representations by Backpropagation Through Structure

[C] //Proceedings of International Conference on Neural Networks (ICNN'96). IEEE, 1996,1:347-352.

[本文引用: 1]

Hochreiter S, Schmidhuber J .

Long Short-Term Memory

[J]. Neural Computation, 1997,9(8):1735-1780.

[本文引用: 1]

Graves A, Schmidhuber J .

Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures

[J]. Neural Networks, 2005,18(5-6):602-610.

[本文引用: 1]

Sun P, Yang X, Zhao X , et al.

An Overview of Named Entity Recognition

[C]// Proceedings of the 2018 International Conference on Asian Language Processing (IALP). IEEE, 2018: 273-278.

[本文引用: 1]

Blitzer J, McDonald R, Pereira F .

Domain Adaptation with Structural Correspondence Learning

[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2006: 120-128.

[本文引用: 1]

Jiang J, Zhai C X .

Instance Weighting for Domain Adaptation in NLP

[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. 2007: 264-271.

[本文引用: 1]

Yang Z, Salakhutdinov R, Cohen W W .

Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks

[OL]. arXiv Preprint, arXiv: 1703.06345.

[本文引用: 1]

Dai W, Yang Q, Xue G R , et al.

Boosting for Transfer Learning

[C]//Proceedings of the 24th International Conference on Machine Learning. ACM, 2007: 193-200.

[本文引用: 2]

Dai W, Xue G R, Yang Q , et al.

Transferring Naive Bayes Classifiers for Text Classification

[C]// Proceedings of the 22nd AAAI Conference on Artificial Intelligence. 2007: 540-545.

[本文引用: 1]

Dai W, Xue G R, Yang Q , et al.

Co-clustering Based Classification for Out-of-domain Documents

[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2007: 210-219.

[本文引用: 1]

Xue G R, Dai W, Yang Q , et al.

Topic-bridged PLSA for Cross-domain Text Classification

[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2008: 627-634.

[本文引用: 1]

Pan S J, Tsang I W, Kwok J T , et al.

Domain Adaptation via Transfer Component Analysis

[J]. IEEE Transactions on Neural Networks, 2010,22(2):199-210.

[本文引用: 1]

Zhong E, Fan W, Peng J , et al.

Cross Domain Distribution Adaptation via Kernel Mapping

[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2009: 1027-1036.

[本文引用: 1]

张博, 史忠植, 赵晓非 , .

一种基于跨领域典型相关性分析的迁移学习方法

[J]. 计算机学报, 2015,38(7):1326-1336.

[本文引用: 1]

( Zhang Bo, Shi Zhongzhi, Zhao Xiaofei , et al.

A Transfer Learning Based on Canonical Correlation Analysis Across Different Domains

[J]. Chinese Journal of Computers, 2015,38(7):1326-1336.)

[本文引用: 1]

Al-Stouhi S, Reddy C K .

Transfer Learning for Class Imbalance Problems with Inadequate Data

[J]. Knowledge and Information Systems, 2016,48(1):201-228.

[本文引用: 1]

Ryu D, Jang J I, Baik J .

A Transfer Cost-sensitive Boosting Approach for Cross-project Defect Prediction

[J]. Software Quality Journal, 2017,25(1):235-272.

[本文引用: 1]

Pan S J, Ni X, Sun J T , et al.

Cross-domain Sentiment Classification via Spectral Feature Alignment

[C] //Proceedings of the 19th International Conference on World Wide Web. ACM, 2010: 751-760.

[本文引用: 1]

He Y, Lin C, Alani H .

Automatically Extracting Polarity-bearing Topics for Cross-domain Sentiment Classification

[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 123-131.

[本文引用: 1]

Tan B, Song Y, Zhong E , et al.

Transitive Transfer Learning

[C]//Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 1155-1164.

[本文引用: 1]

周清清, 章成志 .

基于迁移学习微博情绪分类研究——以H7N9微博为例

[J]. 情报学报, 2016,35(4):339-348.

[本文引用: 1]

( Zhou Qingqing, Zhang Chengzhi .

Microblog Emotion Classification Based on Transfer Learning:A Case Study of Microblogs about H7N9

[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(4):339-348.)

[本文引用: 1]

Huang X, Rao Y, Xie H , et al.

Cross-domain Sentiment Classification via Topic-related TrAdaBoost

[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. AAAI, 2017: 4939-4940.

[本文引用: 1]

余传明 .

基于深度循环神经网络的跨领域文本情感分析

[J]. 图书情报工作, 2018,62(11):23-34.

[本文引用: 1]

( Yu Chuanming .

A Cross-domain Text Sentiment Analysis Based on Deep Recurrent Neural Network

[J]. Library and Information Service, 2018,62(11):23-34.)

[本文引用: 1]

Giorgi J M, Bader G D .

Transfer Learning for Biomedical Named Entity Recognition with Neural Networks

[J]. Bioinformatics, 2018,34(23):4087-4094.

[本文引用: 3]

Corbett P, Boyle J .

Chemlistem: Chemical Named Entity Recognition Using Recurrent Neural Networks

[J]. Journal of Cheminformatics, 2018,10(1):61-68.

[本文引用: 2]

Gama J, Žliobaitė I, Bifet A , et al.

A Survey on Concept Drift Adaptation

[J]. ACM Computing Surveys (CSUR), 2014,46(4):1-44.

[本文引用: 1]

Pan S J, Yang Q .

A Survey on Transfer Learning

[J]. IEEE Transactions on Knowledge and Data Engineering, 2009,22(10):1345-1359.

[本文引用: 2]

高冰涛, 张阳, 刘斌 .

BioTrHMM:基于迁移学习的生物医学命名实体识别算法

[J]. 计算机应用研究, 2019,36(1):45-48.

[本文引用: 1]

( Gao Bingtao, Zhang Yang, Liu Bin .

BioTrHMM: Named Entity Recognition Algorithm Based on Transfer Learning in Biomedical Texts

[J]. Application Research of Computers, 2019,36(1):45-48.)

[本文引用: 1]

王红斌, 沈强, 线岩团 .

融合迁移学习的中文命名实体识别

[J]. 小型微型计算机系统, 2017,38(2):346-351.

[本文引用: 1]

( Wang Hongbin, Shen Qiang, Xian Yantuan .

Research on Chinese Named Entity Recognition Fusing Transfer Learning

[J]. Journal of Chinese Computer Systems, 2017,38(2):346-351.)

[本文引用: 1]

Pan S J, Toh Z, Su J .

Transfer Joint Embedding for Cross-Domain Named Entity Recognition

[J]. ACM Transactions on Information Systems (TOIS), 2013,31(2):1-27.

[本文引用: 1]

Pennington J, Socher R, Manning C .

GloVe: Global Vectors for Word Representation

[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532-1543.

[本文引用: 1]

Devlin J, Chang M W, Lee K , et al.

Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

[OL]. arXiv Preprint, arXiv: 1810.04805.

[本文引用: 1]

Peters M E, Neumann M, Iyyer M , et al.

Deep Contextualized Word Representations

[OL]. arXiv Preprint, arXiv: 1802.05365.

[本文引用: 1]

Radford A, Narasimhan K, Salimans T , et al.

Improving Language Understanding by Generative Pre-training

[OL]. [2019-04-05]. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.

URL     [本文引用: 1]

Si Y, Wang J, Xu H , et al.

Enhancing Clinical Concept Extraction with Contextual Embedding

[OL]. arXiv Preprint, arXiv: 1902.08691.

[本文引用: 1]

Lee J, Yoon W, Kim S , et al.

Biobert: Pre-trained Biomedical Language Representation Model for Biomedical Text Mining

[OL]. arXiv Preprint, arXiv: 1901.08746.

[本文引用: 1]

Le Q, Mikolov T .

Distributed Representations of Sentences and Documents

[C] //Proceedings of the International Conference on Machine Learning. 2014: 1188-1196.

[本文引用: 1]

Cover T M, Hart P .

Nearest Neighbor Pattern Classification

[J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.

[本文引用: 1]

赵冬 .

健康领域中文自动问答的问题解析研究——以肺癌为例

[D]. 武汉: 华中科技大学, 2019.

[本文引用: 1]

( Zhao Dong .

Question Analysis of Chinese Automatic Question Answering in Health Field: A Case of Lung Cancer

[D]. Wuhan:Huazhong University of Science and Technology, 2019.)

[本文引用: 1]

Kilicoglu H, Abacha A B, Mrabet Y , et al.

Semantic Annotation of Consumer Health Questions

[J]. BMC Bioinformatics, 2018,19(1):34.

[本文引用: 1]

Hripcsak G, Rothschild A S .

Agreement, the F-measure, and Reliability in Information Retrieval

[J]. Journal of the American Medical Informatics Association, 2005,12(3):296-298.

[本文引用: 1]

Sang T K, De Meulder F .

Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition

[C]//Proceedings of CoNLL-2003, 2003: 142-147.

[本文引用: 1]

朱艳辉, 李飞, 冀相冰 , .

反馈式K近邻语义迁移学习的领域命名实体识别

[J]. 智能系统学报, 2019(4):820-830.

[本文引用: 1]

( Zhu Yanhui, Li Fei, Ji Xiangbing , et al.

Domain Named Entity Recognition Based on Feedback K-Nearest Semantic Transfer Learning

[J]. CAAI Transactions on Intelligent Systems, 2019(4):820-830.)

[本文引用: 1]

/