数据分析与知识发现  2024, Vol. 8 Issue (4): 64-75
华东师范大学信息管理系 上海 200062
Review of Term Recognition Studies Based on Deep Learning
Ruan Guangce,Zhong Jinghan,Zhang Yidi()
Department of Information Management, East China Normal University, Shanghai 200062, China
【目的】 梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】 在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation classification) AND deep learning AND ner”作为检索式进行检索,共筛选73篇文献进行述评。【方法】 对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述。【结果】 基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类。从方法使用来看,以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;BERT及BERT的优化模型是近年来的研究热点;在特定领域倾向于使用多任务模型代替神经网络模型;迁移学习以及主动学习的应用成为新的研究方向。【局限】 仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究。【结论】 基于深度学习的术语识别未来可在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究。

关键词 术语识别深度学习文本挖掘    

[Objective] This paper reviews the current developments and challenges facing term recognition studies based on deep learning. [Coverage] We searched the 中国知网 and the Web of Science using queries of 主题=“术语识别”+“术语抽取”, and subject = “(extract terms OR term recognition OR technology detection OR relation classification) AND deep learning AND ner”. A total of 73 articles were retrieved. [Methods] We reviewed these studies on the general framework of deep learning-based term recognition, model selection, advantages and disadvantages of various models, and future development trends. [Results] Deep learning-based term recognition methods can be categorized into three major types: single neural network models, composite neural network models, and models combining deep learning. BiLSTM-CRF models are the mainstream method for term recognition, with BERT and its optimized models being recent research hotspots. In specific domains, multi-task models are preferred over neural network models, and the application of transfer learning and active learning has become a new research direction. [Limitations] We only conducted a structured analysis of different models and training results of existing studies, lacking a comparison of training effects of different models on the same dataset, requiring further research in the future. [Conclusion] Future research in deep learning-based term recognition should focus on term annotation patterns, integrating multidimensional features of terms, term recognition techniques for small or zero datasets, cross-domain model generalization, interpretability of results, and improvement of evaluation methods.

Key wordsTerm Recognition    Deep Learning    Text Mining
收稿日期: 2023-03-03      出版日期: 2024-03-15
ZTFLH:  TP18  
通讯作者: 张祎笛, ORCID: 0009-0003-1356-6150,。   
阮光册, 钟静涵, 张祎笛. 基于深度学习的术语识别研究综述[J]. 数据分析与知识发现, 2024, 8(4): 64-75.
Ruan Guangce, Zhong Jinghan, Zhang Yidi. Review of Term Recognition Studies Based on Deep Learning. Data Analysis and Knowledge Discovery, 2024, 8(4): 64-75.
Fig.1  基于深度学习的术语识别一般框架
模型 原理 特点
CNN 通过卷积操作从局部信息中提取更高级别的特征,分类器负责输出字向量的位置信息[15] 加强学习语义的局部特征和潜在信息,难以捕捉长信息
RNN 引入“循环”思想处理序列文本,可以利用上下文信息预测当前输出[24] 捕获过去短期的信息,使语义学习更加准确,但是容易出现梯度消失或爆炸的问题
BiLSTM 引入细胞状态,增加输入门、遗忘门、有选择地控制信息[28] 既能解决短期依赖问题,又能处理长期依赖问题
Attention 保留LSTM编码器的输出结果,再通过计算权重的方法选择性学习序列信息输出[29] 打破模型的编码器和编码器都依赖于一个固定长度的向量,专注最相关的信息
BERT 进行深度的双向特征编码,通过随机掩码的方式,结合上下文信息进行模型训练[30] 适合处理大数据集,训练时间大大缩短,识别多义词实体以及表征句子结构存在优势
Table 1  单一神经网络模型完成术语识别的原理及特点
模型 时间 应用领域 数据集 性能指标 贡献
RNN 2015[24] 生物 GENIA3.02 F1:0.82(比CRF提升0.07) 在未分割的文本上获取句子中更广义的信息
BiLSTM 2018[43] 医疗事件 Mayo Clinic的医疗笔记、病例 准确率:0.88(比CRF提升0.15) 融合单词向量、词性信息,可以拓展到其他领域实验
SpanBERT 2020[44] 自然语言处理 GLUE F1:0.95(比BERT提升0.2) 通过Masking连续的随机跨度,在问题和共同参考解决的任务中表现良好
BiLSTM-CRF 2018[45] 中医临床 《全国名医验案类方》 F1:0.75(比LSTM提升0.07) 症状的组成要素融入了额外的字符级别特征
Table 2  单一神经网络的术语识别的性能指标
模型 原理 特点
BiLSTM-Attention BiLSTM获取序列上下文特征;Attention注意力机制对BiLSTM提取出序列信息进行加权变换;Softmax输出结果 既考虑了文本上下文信息,又有效地突出重点信息,能够获得更加丰富的语义特征
CNN-BiLSTM CNN层对字向量进行卷积和池化,抽取字符级向量;
BERT-BiLSTM BERT进行文本表示;BiLSTM进行特征提取 相较于基础模型,能够对序列及字符的语义特征进行建模、捕获序列及字符的特征,在识别多义词实体以及表征句子结构方面表现突出
CNN-BiLSTM-Attention-LSTM CNN获得字符特征;BiLSTM获取序列特征;Attention注意力机制捕获依赖关系;LSTM进行解码输出 考虑到了文本权重分布的差异,解码器的训练速度更快
BERT-Attention-MCCNN[48] BERT产生动态词向量;Attention注意力机制学习词汇权重;残差单元构成MCCNN,学习表达关系的语义;Softmax输出结果 缓解静态词向量无法区分一词多义、未考虑单词权重从而长句子提取效果差、模型复杂等的问题
Table 3  常见的混合深度学习模型融合的原理及特点
文献模型 时间 应用领域 数据集 性能指标 贡献
CNN-BiLSTM-CRF 2018[49] 计算机文献 中国知网 F1:0.78(比BiLSTM- CRF提升0.03) 对GloVe和Word2Vec两种词嵌入模型进行比较,GloVe表现更好
DCNN-BiLSTM-CRF 2021[50] 煤炭装置 HAZOP F1:0.886(比BiLSTM- CRF提升0.18) 解决了专业领域词语复杂、一词多义、嵌套难以识别问题
2022[59] 司法领域负面案件 新浪微博、Github等网站的舆情信息 F1:0.89(比BiLSTM
Dynamic-att-BiLSTM-LSTM 2021[60] 社区文本 Semeval-2018, AlienVault,WeLive, Amazon -Related Blogs F1:0.87(比BiLSTM-CRF提升0.47) 提出了一个对抗性主动学习框架,增量地为选择有信息的样本,准确率提升明显
BERT-BiLSTM-CRF 2019[53] 临床病例 中文临床乳腺癌笔记 F1:0.967 在英文的融合的数据文本上BERT提升了模型的语义理解
BERT-BiLSTM-CRF 2022[54] 学术文献 Semantic Scholar英文文献 F1:0.32 算法识别模型可以有效推动算法进化网络构建和算法检索与追踪方面的工作
TFT-BERT-BiLSTM-CRF 2021[56] 方志知识图谱 1998年人民日报数据集和微软亚洲研究院(MSRA)数据集 F1:0.86(比BERT-BiLSTM-Softmax提升0.50) 使用迁移学习,解决语料标注冷启动问题,BERT相比其他方法预测结果F1值提升了约30%
2021[48] 非遗传统戏剧 百度百科和非物质文化遗产官网 F1:0.904(比Baseline提升0.590) 使用图卷积网络获取长距离句子特征,构建非遗传统戏剧术语库
Table 4  常见混合神经网络的术语识别性能指标
Fig.2  多任务学习的一般原理
Fig.3  迁移学习的一般原理
发布时间 名称 发布机构 模型 术语抽取算法 资源下载
2021 CBLUE 中文信息学会医疗健康与生物信息处理专业委员 以BERT为基础的11种预训练模型 采用现实世界噪声数据,以BERT为代表的11种中文预训练模型,完成包括医学文本信息抽取、术语标准化、文本分类和问答4大类经典任务
2019 ERNIE 清华大学、华为 BERT 将词汇、句法和知识信息与BERT模型相结合;可针对具体任务进行微调
2019 K-BERT 北京大学、北京师范大学、腾讯 BERT 将知识图谱三元组转换为句子树,采用BERT实现临床医学病例和药物识别
2019 BioBERT 韩国高丽大学、Naver BERT 在英文维基百科和BooksCorpus进行BERT预训练并初始化BioBERT;在生物医学领域语料库(PubMed和PMC)上进行预训练并在下游任务微调
2019 LSTM Voter 法兰克福大学 (Char-BiLSTM/Char-ATT)-BiLSTM-CRF 结合5个NER工具训练结果,利用Attention构建的字符级特征;BiLSTM学习上下文信息,输出标签预测概率;CRF获取标注序列
2018 Multi-BioNER 伊利诺伊大学、南加州大学、斯坦福大学 BiLSTM-CRF BiLSTM构建字符和词嵌,BiLSTM层学习上下文信息;CRF获取标注序列
2018 Collabo Net 韩国高丽大学 CNN-BiLSTM-CRF 使用CNN构建字符级单词嵌入;BiLSTM学习上下文信息,输出标签预测概率;CRF获取标注序列
Table5  部分开源术语识别模型
Full text



