数据分析与知识发现  2021, Vol. 5 Issue (5): 83-94
1南京邮电大学管理学院 南京 210003
2江苏省数据工程与知识服务重点实验室 南京 210023
Normalizing Chinese Disease Names with Multi-feature Fusion
Han Pu1,2(),Zhang Zhanpeng1,Zhang Mingtao1,Gu Liang1
1School of Management, Nanjing University of Posts & Telecommunications, Nanjing 210023, China;
2Jiangsu Provincial Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
【目的】 针对在线健康社区疾病名称存在多种指称的问题,提出基于多特征融合的中文疾病名称归一化模型。【方法】 基于在线健康社区构建中文疾病名称归一化数据集;采用LSTM、GRU和CNN模型进行中英文对照实验,利用Word2Vec和GloVe生成外部语义特征向量,并通过CNN模型进行验证;最后在自注意力机制基础上,提出多特征融合的中文疾病名称归一化模型MFCF-CNN,更好地利用全局和局部语义特征。【结果】 实验表明,在中文数据集 Accuracy@ 10 指标上,MFCF-CNN模型准确率可以达到85.48%,较CNN基础模型提高8.84%。【局限】 所构建的数据集规模较小,需要进一步增加数据量以体现模型泛化性。【结论】 进一步推动了中文疾病名称归一化研究,为中文医学知识图谱构建和自然语言理解提供帮助。

关键词 疾病名称归一化有监督学习卷积神经网络自注意力机制    

[Objective] This paper proposes a normalization model for Chinese disease names based on multi-feature fusion, aiming to address the issue of multiple alternative disease names for online health communities. [Methods] First, we constructed a normalized dataset for Chinese disease names used by online health communities. Second, we conducted experiments in Chinese and English with the LSTM, GRU and CNN models. Third, we generated external semantic feature vectors with Word2vec and GloVe. Finally, we developed the normalization model MFCF-CNN for Chinese disease names based on the multi-feature fusion and self-attention mechanism. [Results] We examined the proposed model with Accuracy @ 10 dataset. The accuracy of our MFCF-CNN model reached 85.48%, which is 8.84% higher than the basic CNN model. Our model made better use of global and local semantic features. [Limitations] The amount of the experiment data needs to be expanded. [Conclusions] The proposed model promotes the normalization of Chinese disease names, which benefits the medical knowledge graph construction and natural language understanding in Chinese.

Key wordsDisease Name Normalization    Supervised Learning    Convolutional Neural Network    Self-attention Mechanism
收稿日期: 2020-12-04      出版日期: 2021-05-27
ZTFLH:  G250  
通讯作者: 韩普     E-mail:
韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
Han Pu,Zhang Zhanpeng,Zhang Mingtao,Gu Liang. Normalizing Chinese Disease Names with Multi-feature Fusion. Data Analysis and Knowledge Discovery, 2021, 5(5): 83-94.
Fig.1  卷积神经网络模型
Fig.2  实验流程
疾病名称 词级文本 字级文本
水痘 背部 腹部 水痘 感觉 瘙痒 水泡患者 局部 皮疹 轻微 疼痛 皮炎平 效果带状疱疹 疼痛感 涂抹 阿昔洛韦 软膏 配合 口服 胸腺肽 肠溶片 增强 免疫力 免疫 功能 低下 背 部 胸 腹 现 水 痘 感 觉 痒 瘙 泡 病 患 局 皮 疹 轻 微 疼 痛 抹 炎 平 效 果 状 疱 涂 昔 洛 韦 软 膏 配 合 口 服 腺 肽 肠 溶 片 增 强 免 疫 力 主 功 低
风湿热 湿热 出汗 畏寒 怕冷 特别 口腔溃疡 嗓子 痛发于 舌尖 唇部 牙龈 胀痛 口腔 异味 月经 病史 服药 过敏史 饮食 偏辣 高血压 高血糖 高血脂 冠心病 高尿酸 血症舌苔 湿 热 汗 畏 寒 冷 特 容 易 口 腔 溃 疡 嗓 子 痛 舌 尖 唇 部 牙 龈 胀 异 味 时 月 正 病 史 服 敏 饮 食 偏 辣 高 血 压 糖 脂 冠 心 尿 酸 症 苔
关节炎 血清 骨钙素 测定 胶原蛋白 序列 维生素 白介素 肿瘤 坏死 因子 日去 好坏 泼尼松 拍片 骨折 随访 减药 关系 血 清 骨 钙 素 测 B 胶 原 蛋 序 列 羟 维 生 D 介 肿 瘤 坏 死 子 日 泼 尼 松 龙 片 吃 拍 骨 折 样 访 减 药 关 系
Table 1  中文疾病数据集实例
Fig.3  基于自注意机制的多特征融合模型MFCF-CNN
Fig.4  数据集划分及模型训练流程
领域 语料来源
Wiki-WCv 通用领域 维基百科2020版
EMR-WCv 临床医学领域 CCKS2017电子病历
MA-WCv 生物医学领域 万方医学网-医学文献摘要
OHC-WCv 在线医疗健康领域 好问康、求医问药网
Table 2  外部语义特征及语料来源
疾病名称 疾病描述
Arthritis of knee arthritic knees
Lightheadedness light headed
Myalgia Muscle aches & pains
Taste sense altered taste perversion
Foot pain pain on the sole of my feet
Myositis muscle inflammation
Severe pain severe pain close to my the crotch area
Myalgia soreness of muscles
Table 3  英文疾病数据集实例
输入句向量维度 100 100 100
卷积核的数量 4 / /
神经元 128 128 128
输入样本数 20 20 20
迭代次数 10 20 20
Dropout机制 0.5
Softmax层数 归一化疾病名称数
注意力机制 自注意力机制
Table 4  实验参数设置
模型 Accuracy@1 Accuracy@5 Accuracy@10
CNN-WRv-ADR 18.71% 47.09% 54.19%
LSTM-WRv-ADR 22.58% 45.81% 68.39%
GRU-WRv-ADR 20.65% 47.10% 65.81%
CNN-WRv-ASK 61.19% 78.10% 80.12%
LSTM-WRv-ASK 65.12% 79.76% 84.76%
GRU-WRv-ASK 66.79% 79.29% 85.12%
CNN-WRv-CDND 60.98% 74.89% 76.64%
LSTM-WRv-CDND 59.34% 72.43% 75.21%
GRU-WRv-CDND 58.97% 71.63% 74.28%
CNN-CRv-CDND 70.06% 83.09% 84.48%
Table 5  中英文疾病名称归一化准确率
语义特征 Accuracy@1 Accuracy@5 Accuracy@10
Wiki-WCv 70.30% 83.40% 84.99%
EMR-WCv 69.25% 82.27% 83.75%
MA-WCv 70.36% 83.41% 84.92%
OHC-WCv 70.21% 83.52% 84.90%
Table 6  CNN-WCv模型上引用外部语义特征向量的准确率
模型 Accuracy@1 Accuracy@5 Accuracy@10
CNN-WCv 70.21% 83.52% 84.90%
CNN-GCv 69.62% 83.21% 84.51%
MFCF-CNN-AWCv 70.64% 83.87% 85.28%
MFCF-CNN-AGCv 70.22% 83.71% 85.06%
MFCF-CNN-AWGCv 71.05% 83.95% 85.48%
Table 7  基于多特征融合的中文疾病名称归一化准确率
Fig.5  实验结果对比分析
