Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (8): 41-49     https://doi.org/10.11925/infotech.2096-3467.2019.1238
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于BERT模型的中文医学文献分类研究*
赵旸1,2,3,张智雄1,2,3,4(),刘欢1,2,3,丁良萍1,2,3
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3科技大数据湖北省重点实验室 武汉 430071
4中国科学院武汉文献情报中心 武汉 430071
Classification of Chinese Medical Literature with BERT Model
Zhao Yang1,2,3,Zhang Zhixiong1,2,3,4(),Liu Huan1,2,3,Ding Liangping1,2,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library, Information and Archives Management, School of Economics and Management,University of Chinese Academy of Sciences, Beijing 100190, China
3Hubei Key Laboratory of Big Data in Science and Technology, Wuhan 430071, China
4Wuhan Library, Chinese Academy of Sciences, Wuhan 430071, China
全文: PDF (716 KB)   HTML ( 41
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】探究BERT中文基础模型(BERT-Base-Chinese)和BERT中文医学预训练模型(BERT-Re-Pretraining-Med-Chi)在中文医学文献分类上的分类效果及差异原因。【方法】以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准。【结果】BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-Re-Pretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果。【局限】仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中。【结论】BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵旸
张智雄
刘欢
丁良萍
关键词 深度学习BERT文献分类预训练模型    
Abstract

[Objective] This paper explores the classification results of Chinese medical literature based on the BERT-Base-Chinese model and the BERT Chinese medical pre-training model (BERT-Re-Pretraining-Med-Chi), aiming to analyze their differences. [Methods] We built a medical text pre-training corpus with 340,000 abstracts of Chinese medical literature. Then, we constructed training samples, with 16,000 and 32,000 abstracts, and established test sample with another 3,200 abstracts. Finally, we compareed the performance of the two models, using the SVM method as a benchmark. [Results] The two BERT models yielded better results than the SVM one, and their average F1-scores are about 5% higher than the SVM model. The F1-score of the BERT-Re-Pretraining-Med-Chi model reaches 0.8390 and 0.8607, which is the best among the three. [Limitations] This study only examined research papers from 16 medical and health categories in the Chinese Library Classification, and the remaining four categories were not included in the classification system due to the small amount of data. [Conclusions] The BERT-Re-Pretraining-Med-Chi model improves the performance of medical literature classification, while the BERT-based deep learning method yields better results with large-scale training set.

Key wordsDeep Learning    BERT    Literatures Classification    Pre-training model
收稿日期: 2019-11-13      出版日期: 2020-05-25
ZTFLH:  G202  
通讯作者: 张智雄     E-mail: zhangzhx@mail.las.ac.cn
引用本文:   
赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究*[J]. 数据分析与知识发现, 2020, 4(8): 41-49.
Zhao Yang, Zhang Zhixiong, Liu Huan, Ding Liangping. Classification of Chinese Medical Literature with BERT Model. Data Analysis and Knowledge Discovery, 2020, 4(8): 41-49.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1238      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I8/41
Fig.1  数据截图
类别 查准率 查全率 F1值
R1 0.62 0.85 0.72
R2 0.80 0.49 0.61
R3 0.83 0.92 0.87
R4 0.92 0.90 0.91
R5 0.96 0.96 0.96
R6 0.91 0.89 0.90
R71 0.82 0.47 0.60
R72 0.65 0.80 0.71
R73 0.56 0.75 0.64
R74 0.91 0.59 0.72
R75 0.70 0.58 0.64
R76 0.72 0.72 0.72
R77 0.82 0.91 0.86
R78 0.78 0.81 0.80
R8 0.78 0.85 0.81
R9 0.78 0.85 0.82
平均值 0.785 0 0.771 3 0.768 1
Table 1  样本量为16 000时SVM模型的实验结果
类别 查准率 查全率 F1值
R1 0.68 0.83 0.75
R2 0.84 0.51 0.63
R3 0.86 0.93 0.89
R4 0.93 0.92 0.92
R5 0.96 0.96 0.96
R6 0.93 0.91 0.92
R71 0.84 0.57 0.68
R72 0.66 0.82 0.73
R73 0.58 0.76 0.66
R74 0.92 0.62 0.74
R75 0.74 0.62 0.68
R76 0.73 0.74 0.73
R77 0.84 0.93 0.88
R78 0.80 0.84 0.82
R8 0.77 0.85 0.81
R9 0.80 0.86 0.83
平均值 0.805 0 0.791 9 0.789 4
Table 2  样本量为32 000时SVM模型的实验结果
类别 查准率 查全率 F1值
R1 0.75 0.83 0.79
R2 0.88 0.67 0.76
R3 0.61 0.82 0.70
R4 0.93 0.63 0.75
R5 0.83 0.64 0.72
R6 0.77 0.76 0.76
R71 0.89 0.91 0.90
R72 0.88 0.91 0.89
R73 0.87 0.91 0.89
R74 0.83 0.89 0.86
R75 0.86 0.94 0.90
R76 0.91 0.94 0.92
R77 0.93 0.99 0.96
R78 0.94 0.96 0.95
R8 0.88 0.71 0.79
R9 0.75 0.85 0.79
平均值 0.843 3 0.835 3 0.833 7
Table 3  样本量为16 000时BERT-Base-Chinese模型的实验结果
类别 查准率 查全率 F1值
R1 0.76 0.84 0.80
R2 0.86 0.65 0.74
R3 0.66 0.79 0.72
R4 0.95 0.69 0.80
R5 0.81 0.70 0.75
R6 0.80 0.78 0.79
R71 0.88 0.96 0.92
R72 0.91 0.92 0.91
R73 0.89 0.89 0.89
R74 0.84 0.90 0.86
R75 0.87 0.96 0.91
R76 0.90 0.95 0.93
R77 0.95 1.00 0.97
R78 0.94 0.94 0.94
R8 0.89 0.79 0.83
R9 0.77 0.86 0.81
平均值 0.854 6 0.850 3 0.848 9
Table 4  样本量为32 000时BERT-Base-Chinese模型的实验结果
类别 查准率 查全率 F1值
R1 0.73 0.86 0.79
R2 0.91 0.62 0.74
R3 0.65 0.82 0.72
R4 0.94 0.66 0.78
R5 0.83 0.71 0.76
R6 0.79 0.80 0.79
R71 0.87 0.94 0.91
R72 0.91 0.86 0.88
R73 0.87 0.91 0.89
R74 0.81 0.86 0.83
R75 0.88 0.95 0.91
R76 0.87 0.95 0.91
R77 0.94 1.00 0.97
R78 0.95 0.95 0.95
R8 0.87 0.73 0.79
R9 0.76 0.89 0.82
平均值 0.848 7 0.840 6 0.839 0
Table 5  样本量为16 000时BERT-Re-Pretraining-Med-Chi模型的实验结果
类别 查准率 查全率 F1值
R1 0.78 0.87 0.82
R2 0.88 0.71 0.78
R3 0.67 0.82 0.74
R4 0.98 0.70 0.82
R5 0.83 0.71 0.77
R6 0.80 0.88 0.79
R71 0.90 0.95 0.92
R72 0.91 0.91 0.91
R73 0.91 0.93 0.92
R74 0.87 0.91 0.89
R75 0.87 0.97 0.92
R76 0.91 0.95 0.93
R77 0.96 1.00 0.98
R78 0.95 0.94 0.94
R8 0.88 0.78 0.82
R9 0.76 0.88 0.82
平均值 0.867 1 0.861 6 0.860 7
Table 6  样本量为32 000时BERT-Re-Pretraining-Med-Chi模型的实验结果
样本量 评估指标 SVM BERT-Base-Chinese BERT-Re-Pretraining-Med-Chi
16 000 查准率
查全率
F1值
0.785 0 0.843 3 0.848 7
0.771 3 0.835 3 0.840 6
0.768 1 0.833 7 0.839 0
32 000 查准率
查全率
F1值
0.805 0 0.854 6 0.867 1
0.791 9 0.850 3 0.861 6
0.789 4 0.848 9 0.860 7
Table 7  各组实验分类结果的评估值整理
[1] Khalil El H, Hussien A, Safwan Q, et al. Building an Ensemble of Fine-tuned Naive Bayesian Classifiers for Text Classification[J]. Entropy, 2018,20(11):857.
doi: 10.3390/e20110857
[2] Wei O, Huynh V N, Songsak S. Training Attractive Attribute Classifiers Based on Opinion Features Extracted from Review Data[J]. Electronic Commerce Research and Applications, 2018,32:13-22.
doi: 10.1016/j.elerap.2018.10.003
[3] Jafari A, Ezadi H, Hossennejad M, et al. Improvement in Automatic Classification of Persian Documents by Means of Support Vector Machine and Representative Vector[C]// Proceedings of the International Conference on Innovative Computing Technology. 2011: 282-292.
[4] 陈玉芹. 多类别科技文献自动分类系统[D]. 武汉: 华中科技大学, 2008.
[4] ( Chen Yuqin. Multi-class Scientific Literature Automatic Categorization System[D]. Wuhan: Huazhong University of Science & Technology, 2008.)
[5] 白小明, 邱桃荣. 基于SVM和KNN算法的科技文献自动分类研究[J]. 微计算机信息, 2006,22(36):275-276, 65.
[5] ( Bai Xiaoming, Qiu Taorong. Science and Technology Text Auto Sort Study Base of SVM and KNN Algorithm[J]. Microcomputer Information, 2006,22(36):275-276, 65.)
[6] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014(3):80-87.
[6] ( Wang Hao, Ye Peng, Deng Sanhong. The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles[J]. New Technology of Library and Information Service, 2014(3):80-87.)
[7] 杨敏, 谷俊. 基于SVM的中文书目自动分类及应用研究[J]. 图书情报工作, 2012,56(9):114-119.
[7] ( Yang Min, Gu Jun. Study and Apply of Chinese Bibliographies Automatic Classification Based on Support Vector Machine[J]. Library and Information Service, 2012,56(9):114-119.)
[8] 李湘东, 廖香鹏, 黄莉. LDA模型下书目信息分类系统的研究与实现[J]. 现代图书情报技术, 2014(5):18-25.
[8] ( Li Xiangdong, Liao Xiangpeng, Huang Li. Research and Implementation of Bibliographic Information Classification System in LDA Model[J]. ew Technology of Library and Information Service, 2014(5):18-25.)
[9] 李湘东, 潘练. LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比[J]. 信息资源管理学报, 2015,5(4):24-31, 46.
[9] ( Li Xiangdong, Pan Lian. Text Classification Algorithms Using the LDA Model: On the Comparison of the Applications on Webpages and eTexts Including Books and Journals[J]. Journal of Information Resources Management, 2015,5(4):24-31, 46.)
[10] Zhang S, Chen Y, Huang X L, et al. Text Classification of Public Feedbacks Using Convolutional Neural Network Based on Differential Evolution Algorithm[J]. International Journal of Computers Communications & Control, 2019,14(1):124-134.
doi: 10.15837/ijccc.2019.1
[11] Sun X P, Li Y B, Kang H W, et al. Automatic Document Classification Using Convolutional Neural Network[C]// Proceedings of International Seminar on Computer Science and Engineering Technology. 2019. DOI: 10.1088/1742-6596/1176/3/032029.
[12] 郭利敏. 基于卷积神经网络的文献自动分类研究[J]. 图书与情报, 2017(6):96-103.
[12] ( Guo Limin. Study of Automatic Classification of Literature Based on Convolution Neural Network[J]. Library & Information, 2017(6):96-103.)
[13] 朱肖颖, 赖绍辉, 陆科达. 基于LSTM算法在新闻分类中的应用[J]. 梧州学院学报, 2018,28(6):10-20.
[13] ( Zhu Xiaoying, Lai Shaohui, Lu Keda. Application of LSTM Algorithm in News Classification[J]. Journal of Wuzhou University, 2018,28(6):10-20.)
[14] 马建红, 王瑞杨, 姚爽, 等. 基于深度学习的专利分类方法[J]. 计算机工程, 2018,44(10):209-214.
doi: 10.19678/j.issn.1000-3428.0048159
[14] ( Ma Jianhong, Wang Ruiyang, Yao Shuang, et al. Patent Classification Method Based on Depth Learning[J]. Computer Engineering, 2018,44(10):209-214.)
doi: 10.19678/j.issn.1000-3428.0048159
[15] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv:. 181004805.
[16] 胡春涛, 秦锦康, 陈静梅, 等. 基于BERT模型的舆情分类应用研究[J]. 网络安全技术与应用, 2019(11):41-44.
[16] ( Hu Chuntao, Qin Jinkang, Chen Jingmei, et al. Application Research of Public Opinion Classification Based on BERT Model[J]. Network Security Technology & Application, 2019(11):41-44.)
[17] Yao L, Jin Z, Mao C S, et al. Traditional Chinese Medicine Clinical Records Classification with BERT and Domain Specific Corpora[J]. Journal of the American Medical Informatics Association, 2019,26(12):1632-1636.
doi: 10.1093/jamia/ocz164 pmid: 31550356
[18] Zhang X H, Zhang Y Y, Zhang Q, et al. Extracting Comprehensive Clinical Information for Breast Cancer Using Deep Learning Methods[J]. International Journal of Medical Informatics, 2019, 132: Article No.103985.
doi: 10.1016/j.ijmedinf.2020.104233 pmid: 32736330
[19] Jwa H, Oh D, Park K, et al. exBAKE: Automatic Fake News Detection Model Based on Bidirectional Encoder Representations from Transformers (BERT)[J]. Applied Sciences-Basel, 2019,9(19)Article No.4062.
[20] 王英杰, 谢彬, 李宁波. ALICE:一种面向中文科技文本分析的预训练语言表征模型[J]. 计算机工程, 2020,46(2):48-52,58.
[20] ( Wang Yingjie, Xie Bin, Li Ningbo. ALICE: A Pre-trained Language Representation Model for Chinese Technological Text Analysis[J]. Computer Engineering, 2020,46(2):48-52,58.)
[1] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[2] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[3] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[5] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[6] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[7] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[8] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[9] 刘文斌, 何彦青, 吴振峰, 董诚. 基于BERT和多相似度融合的句子对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[10] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[11] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[12] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[13] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[14] 尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[15] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn