Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
基于BiLSTM-CRF中文临床文本中受保护的健康信息识别
刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东
(华中科技大学同济医学院医药卫生管理学院,武汉,430030)
(成都中医药大学公共卫生学院,成都,611137)
(四川省电子病历工程技术研究中心,成都610041)
(四川九阵科技股份有限公司,成都,610041)
A BiLSTM-CRF Model for Chinese Clinical Protected Health Information Recognition
Liu Jingru,Song Yang,Jia Rui,Zhang Yipeng,Luo Yong,Ma Jingdong
(School of Medical and Health Management, Tongji Medical College, Huazhong University of Science and Technology, Wuhan 430030)
(School of Public Health, Chengdu University of Traditional Chinese Medicine, Chengdu, 611137)
(Sichuan Province Electronic Medical Record Engineering Technology Research Center, Chengdu 610041)
(Sichuan Jiuzhen Technology Co., Ltd., Chengdu, 610041)
全文: PDF (627 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案。[方法]选择一家区域卫生信息平台电子健康档案中的出院小结作为实验数据,根据《健康保险可携性与责任法案》(HIPAA)所规定的18项PHI结合实验数据特征确定7个PHI类别及其下包含的15个PHI类型。基于BiLSTM-CRF模型有效地从非结构化的临床记录中识别受保护的健康信息。[结果]对所有实体类别识别的准确率、召回率以及F值分别达98.66%、99.36%以及99.01%,对识别错误的标签进行总结分析。[局限]结合语料特征对模型性能的优化有待完善,并且本研究对于自动识别PHI后的临床文本质量未进行评估。[结论] BiLSTM-CRF模型在不需要特征工程的情况下实现了命名实体自动化识别,有利于促进临床信息共享与利用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 中文临床文本受保护的健康信息长短期记忆网络命名实体识别隐私信息     
Abstract

[Objective] In order to protect private information in clinical texts and effectively identify protected health information (PHI) from unstructured structured texts, an automated scheme for removing private information from clinical records using a BiLSTM-CRF model is proposed. [Method] The discharge summary from the Electronic health records of a health information platform was selected as experimental data. According to the 18 PHI regulations specified by HIPAA combined with the characteristics of the experimental data, 7 PHI categories and 15 PHI types were determined. The BiLSTM-CRF model is used to effectively identify protected health information from unstructured clinical records. [Result] The accuracy rate, recall rate and F value of all entity category recognition were 98.66%, 99.36%, and 99.01% respectively, and the wrong labels were summarized and analyzed.. [Limitations] The optimization of model performance based on corpus characteristics needs to be improved, and the clinical text quality after automatic recognition of PHI has not been evaluated in this study. [Conclusion] The BiLSTM-CRF model realizes the automatic recognition of named entities without feature engineering, which is helpful to promote the sharing and utilization of clinical information.

Key words Chinese clinical text    protected health information    Long Short-Term Memory    named entity recognition    private information
     出版日期: 2020-07-10
ZTFLH:  TP391.1  
引用本文:   
刘婧茹, 宋阳, 贾睿, 张翼鹏, 罗勇, 马敬东. 基于BiLSTM-CRF中文临床文本中受保护的健康信息识别 [J]. 数据分析与知识发现, 10.11925/infotech. 2096-3467. 2020.0167.
Liu Jingru, Song Yang, Jia Rui, Zhang Yipeng, Luo Yong, Ma Jingdong. A BiLSTM-CRF Model for Chinese Clinical Protected Health Information Recognition . Data Analysis and Knowledge Discovery, 0, (): 0-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech. 2096-3467. 2020.0167      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/0
[1] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[2] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[3] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[4] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[5] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[6] 陈美杉,夏晨曦. 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *[J]. 数据分析与知识发现, 2019, 3(12): 61-69.
[7] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[8] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[9] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[10] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[11] 汪润,何琳,王东波,黄水清,范远标. 面向文本挖掘的植物生长发育实体识别研究*[J]. 现代图书情报技术, 2014, 30(1): 24-27.
[12] 高强, 游宏梁. 基于层叠模型的国防领域命名实体识别研究[J]. 现代图书情报技术, 2012, (11): 47-52.
[13] 余传明, 黄建秋, 郭飞. 从客户评论中识别命名实体——基于最大熵模型的实现[J]. 现代图书情报技术, 2011, 27(5): 77-82.
[14] 孙镇 王惠临. 命名实体识别研究进展综述[J]. 现代图书情报技术, 2010, 26(6): 42-47.
[15] 谢靖, 江岚, 王东波, 苏新宁. 基于万方数据(2003-2007)的知识发现应用研究[J]. 现代图书情报技术, 2010, 26(12): 64-69.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn