Please wait a minute...
Advanced Search
数据分析与知识发现  0, Vol. Issue (): 1-     https://doi.org/10.11925/infotech.2096-3467. 2021.0910
  本期目录 | 过刊浏览 | 高级检索 |
基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究
张芳丛,秦秋莉,姜勇,庄润涛
(北京交通大学经济管理学院 北京 100044)     (首都医科大学附属北京天坛医院国家神经系统疾病临床医学研究中心 北京100050) (北京交通大学社区卫生服务中心 北京 100044)
Research on Chinese EMR named entity recognition based on RoBERTa-WWM-BiLSTM-CRF
Zhang Fangcong,Qin Qiuli,Jiang Yong,Zhuang Runtao
(School of Economics and Management , Beijing Jiaotong University, Beijing 100044, China) (National Clinical Medical Research Center for nervous system diseases, Beijing Tiantan Hospital Affiliated to Capital Medical University, Beijing 100050, China) (Community health service center of Beijing Jiaotong University, Beijing 100044, China)
全文: PDF (517 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]针对中文电子病历实体识别中存在的一词多义、词识别不全等问题。

[方法] 采用深度学习模型RoBERTa-WWM-BiLSTM-CRF,改善中文电子病历的命名实体识别的效果并用四组实验进行对比,分析不同模型对中文电子病历实体识别的效果的影响。

[结果] 结果验证该模型的实体识别效果F1值达到了89.08%。

[局限] 使用的数据集规模较小,部分科室实体识别效果较一般,如呼吸科F1值仅为81.11%。

[结论] 通过实验表明本文构建的RoBERTa-WWM-BiLSTM-CRF模型更适用于中文电子病历命名实体识别任务,有效解决了中文电子病历命名实体识别中存在的一词多义及词识别不全的问题,该模型效果F1值达到了89.08%。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 命名实体识别深度学习电子病历     
Abstract

[Objective] Aiming at the problems of polysemy and incomplete word recognition in Chinese EMR entity recognition.

[Methods] The deep learning model RoBERTa-WWM-BiLSTM-CRF is used to improve the effect of named entity recognition of Chinese electronic medical record. Four groups of experiments are used to compare and analyze the influence of different models on the effect of Chinese electronic medical record entity recognition.

[Results] The results show that the F1 value of the model is 89.08%.

[Limitations] The data set used is small, and the entity recognition effect of some departments is relatively general. For example, the F1 value of respiratory department is only 81.11%. [Conclusions] Experiments show that the RoBERTa-WWM-BiLSTM-CRF model constructed in this paper is more suitable for the task of Chinese electronic medical record named entity recognition, and effectively solves the problems of polysemy and incomplete word recognition in Chinese electronic medical record named entity recognition. The F1 value of the model reaches 89.08%.


Key words Named entity recognition    Deep learning    Electronic medical records
     出版日期: 2021-12-14
ZTFLH:  TP393,G250  
引用本文:   
张芳丛, 秦秋莉, 姜勇, 庄润涛. 基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
Zhang Fangcong, Qin Qiuli, Jiang Yong, Zhuang Runtao. Research on Chinese EMR named entity recognition based on RoBERTa-WWM-BiLSTM-CRF . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467. 2021.0910      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 王露, 乐小虬. 科技论文引用内容分析研究进展[J]. 数据分析与知识发现, 2022, 6(4): 1-15.
[2] 郑潇, 李树青, 张志旺. 基于评分数值分析的用户项目质量测度及其在深度推荐模型中的应用*[J]. 数据分析与知识发现, 2022, 6(4): 39-48.
[3] 张云秋, 汪洋, 李博诚. 基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别*[J]. 数据分析与知识发现, 2022, 6(2/3): 242-250.
[4] 余传明, 林虹君, 张贞港. 基于多任务深度学习的实体和事件联合抽取模型*[J]. 数据分析与知识发现, 2022, 6(2/3): 117-128.
[5] 张云秋, 李博诚, 陈妍. 面向不平衡数据的电子病历自动分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 233-241.
[6] 张芳丛, 秦秋莉, 姜勇, 庄润涛. 基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J]. 数据分析与知识发现, 2022, 6(2/3): 251-262.
[7] 胡雅敏, 吴晓燕, 陈方. 基于机器学习的技术术语识别研究综述[J]. 数据分析与知识发现, 2022, 6(2/3): 7-17.
[8] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[9] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[10] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[11] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[12] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[13] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[14] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[15] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn