数据分析与知识发现  2022, Vol. 6 Issue (8): 110-121
1武汉大学信息管理学院 武汉 430072
2武汉大学信息检索与知识挖掘研究所 武汉 430072
3武汉大学马克思主义学院 武汉 430072
4武汉大学人民医院 武汉 430060
Text Semantic Representation with Structure-Function and Entity Recognition: Case Study of Medical Records
Hu Jiming1,2,Qian Wei1,2,Wen Peng3(),Lv Xiaoguang4
1School of Information Management, Wuhan University, Wuhan 430072, China
2Information Retrieval and Knowledge Mining Laboratory, Wuhan University, Wuhan 430072, China
3School of Marxism, Wuhan University, Wuhan 430072, China
4Renmin Hospital of Wuhan University, Wuhan 430060, China
全文: PDF (1254 KB)   HTML ( 16
【目的】 融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。【方法】 依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。【结果】 在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率和F值分别达93.20%、95.19%和94.19%;在文本表示的分类验证实验中,所提病历文本表示方法的分类准确率达到92.12%。【局限】 需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。【结论】 本文将病历结构功能信息引入病历文本表示工作,实验证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。

关键词 中文病历文本结构功能命名实体识别文本语义表示BiLSTM-CRF模型    

[Objective] This paper tries to improve the accuracy of text representation and mining, with the help of structural and functional information from Chinese medical records. [Methods] First, we proposed a new semantic representation strategy for the texts of Chinese medical records based on their structure-function features. Then, we used the BiLSTM-CRF model to recognize named entities, which introduced structure information at the word vector level. Finally, we utilized the TextCNN model to extract local context features, which helped us obtain a vector representation with richer text semantic connotations. [Results] The precision, recall and F values of the new model reached 93.20%, 95.19% and 94.19% respectively, while the classification accuracy rate reached 92.12%. [Limitations] Future research is needed to evaluate our model with more texts and refine the structure recognition process. [Conclusions] The proposed method could effectively improve the accuracy of named entity recognition, and enrich the semantic connotation and representation of the texts.

Key wordsChinese Medical Records    Text Structure and Function    Named Entity Recognition    Text Semantic Representation    BiLSTM-CRF Model
收稿日期: 2021-10-14      出版日期: 2022-09-23
ZTFLH:  TP391  
通讯作者: 文鹏,ORCID:0000-0002-0278-7391     E-mail:
胡吉明, 钱玮, 文鹏, 吕晓光. 基于结构功能和实体识别的文本语义表示——以病历领域为例*[J]. 数据分析与知识发现, 2022, 6(8): 110-121.
Hu Jiming, Qian Wei, Wen Peng, Lv Xiaoguang. Text Semantic Representation with Structure-Function and Entity Recognition: Case Study of Medical Records. Data Analysis and Knowledge Discovery, 2022, 6(8): 110-121.
学者 研究视角 研究思路
Lu等[33] 文本块
本文 结构功能
Table 1  基于结构信息的文本表示研究方法对比
Fig.1  基于结构功能和实体识别的病历文本表示框架
Fig.2  基于结构功能的命名实体识别模型(CSF-BiLSTM-CRF)
Fig.3  TextCNN文本表示模型
序号 结构模块 内涵功能
1 入院情况 主诉、既往史、体查发现、主要辅助检查
2 入院诊断 疾病
3 治疗经过 入院检查、治疗方式、药物、病检
4 出院情况 主诉、体查发现
5 出院诊断 疾病
Table 2  中文病历的文本结构及其内涵功能
实体类型 类型定义 示例 标识符号
症状 患者主观描述症状,位于患者主诉中 腹痛、呕吐、腹胀 SYMPTOM
身体部位 身体的解剖学部位或器官 腹、胃、肝 BODY
化验和检查 化验主要指血、粪、尿实验室化验指标;检查主要指影像学、核医学等结果 T(体温)、胃镜、CT TEST&
疾病 各类疾病医学名词及缩写,位于患者既往疾病史及入院诊断和出院诊断中 胃癌、溃疡、高血压 DISEASE
体征 体格检查发现身体客观异常表现 压痛、反跳痛、呼吸 SIGN
治疗 止血、营养支持以及特殊手术名称 化疗、手术、营养 TREATMENT
药物 药物名称,位于既往疾病史、药物过敏史以及治疗经过中 奥沙利铂、替吉奥、维康达 DRUG
Table 3  中文病历实体类型
参数名称 参数值
初始学习率 1.0
Dropout 0.5
隐藏层大小 300
迭代次数 50
Batch_size 32
Table 4  CSF-BiLSTM-CRF模型参数设置
模型 P/% R/% F值/%
HMM 86.02 73.52 79.28
CRF 82.17 85.88 83.99
BiLSTM 81.42 78.21 79.78
BiLSTM-CRF 92.39 92.51 92.48
CSF-BiLSTM-CRF 93.20 95.19 94.19
Table 5  不同模型的实体识别结果
参数名称 参数值
文本维度 800
词维度 100
卷积核大小 3,4,5
Dropout 0.5
Batch_size 64
迭代次数 50
Table 6  TextCNN模型参数设置
序号 文本表示方法 Acc/% 类别 P/% R/% F值/%
1 Doc2Vec+结构(Baseline) 74.55 腺癌 72.58 64.29 68.18
胃癌 75.73 82.11 78.79
2 仅文本向量 55.76 腺癌 58.57 48.24 52.90
胃癌 53.68 63.75 58.29
3 文本向量+实体结构信息 56.36 腺癌 58.90 50.59 54.43
胃癌 54.35 62.50 58.14
4 仅文本向量(TextCNN) 87.27 腺癌 84.81 88.16 86.45
胃癌 89.53 86.52 88.00
5 文本向量+普通实体(TextCNN) 90.30 腺癌 90.54 88.16 89.33
胃癌 90.11 92.13 91.11
6 文本向量+实体结构信息(TextCNN) 92.12 腺癌 95.00 89.41 92.12
胃癌 89.41 95.00 92.12
Table 7  不同文本表示方法下的分类结果
Full text



