Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (8): 105-113    DOI: 10.11925/infotech.2096-3467.2018.1445
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于互信息和逻辑回归的新词发现 *
陈先来1,3,韩超鹏2,安莹1,3,刘莉1,李忠民1,杨荣4()
1中南大学信息安全与大数据研究院 长沙 410083
2中南大学计算机学院 长沙 410083
3中南大学医疗大数据应用技术国家工程实验室 长沙 410083
4中南大学湘雅医院 长沙 410078
Extracting New Words with Mutual Information and Logistic Regression
Xianlai Chen1,3,Chaopeng Han2,Ying An1,3,Li Liu1,Zhongmin Li1,Rong Yang4()
1Information Security and Big Data Research Institute, Central South University, Changsha 410083, China
2School of Information Science and Engineering, Central South University, Changsha 410083, China
3National Engineering Laboratory for Medical Big Data Application Technology, Central South University, Changsha 410083, China
4Xiangya Hospital, Central South University, Changsha 410078, China
全文: PDF(748 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】改进新词提取方法, 将提取的新词加入现有分词模型, 提高医学文本分词准确率。【方法】在传统互信息模型基础上, 得到字、字串的统计量, 连同字串是否成词, 一起作为特征, 建立逻辑回归分类模型, 设计了一种新词识别算法。【结果】在湘雅医院皮肤科电子病历文本数据上进行系列实验, 与PMI、PMI 2和PMI 3相比, 融入逻辑回归的PMI模型可以取得最高的新词提取准确率(0.803)。【局限】建立逻辑回归分类模型时, 需要对训练集字串是否成词进行人工判断。【结论】融入逻辑回归的互信息分词模型可以更好地识别新词, 降低词语误判, 对于医学文本词的切分具有良好的应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈先来
韩超鹏
安莹
刘莉
李忠民
杨荣
关键词 医学文本分词新词发现逻辑回归互信息模型    
Abstract

[Objective] This paper modified the method for new word extraction, which are used to improve the performance of medical text segmentation models. [Methods] With the help of traditional mutual information model, we obtained the statistics of words and strings. Then, we established a logical regression classification model with these data, and built an algorithm for new word identification. [Results] A series of experiments were carried out on the texts of electronic medical records from Dermatology Department of Xiangya Hospital. Compared with PMI, PMI 2 and PMI 3, our model with logistic regression achieved the highest accuracy of new words extraction (0.803). [Limitations] To establish the logistic regression model for classification, we have to manually judge whether or not the training strings are words. [Conclusions] The proposed model and algorithm could effectively identify new words from medical records.

Key wordsMedical Text    Word Segmentation    New Word Discovery    Logistic Regression    Mutual Information Model
收稿日期: 2018-12-24     
中图分类号:  TP393 G35  
基金资助:*本文系中南大学中央高校基本科研业务费专项资金资助项目“基于临床数据的青霉素类药物不良反应预测模型研究”大数据驱动的心力衰竭风险预测与辅助诊断应用研究”(项目编号: 2018JJ2534)的研究成果之一(2017ZZTS722);国家重点研发计划“精准医学研究”重点专项基金项目“精准医学大数据体系的规范化应用与评价”(2016YFC0901705);国家社会科学基金项目“面向临床决策的电子病历潜在语义分析及应用研究”(13BTQ052);湖南省自然科学基金面上项目“大数据驱动的心力衰竭风险预测与辅助诊断应用研究”的研究成果之一(2018JJ2534)
通讯作者: 杨荣     E-mail: cxlyr0576@163.com
引用本文:   
陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣. 基于互信息和逻辑回归的新词发现 *[J]. 数据分析与知识发现, 2019, 3(8): 105-113.
Xianlai Chen,Chaopeng Han,Ying An,Li Liu,Zhongmin Li,Rong Yang. Extracting New Words with Mutual Information and Logistic Regression. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1445.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1445
图1  分词系统框架
图2  基于互信息的新词提取流程
图3  融入逻辑回归模型的新词提取流程
图4  电子病历文本信息
训练集规模 校验集规模 准确率 精准率 召回率 F1值
100 1 000 0.692 0.712 0.658 0.684
200 1 000 0.711 0.724 0.701 0.712
300 1 000 0.755 0.744 0.801 0.771
500 1 000 0.801 0.821 0.802 0.811
1 000 1 000 0.792 0.812 0.824 0.802
1 500 1 000 0.806 0.831 0.829 0.830
2 000 1 000 0.804 0.827 0.837 0.829
表1  不同训练集规模时模型的新词提取效果
图5  不同训练集规模时的新词识别准确率
模型 提取的前20条新词
PMI 主诉 全身 身皮 皮肤 肤红 红斑 丘疹 疹年 加重 重伴
伴糜 糜烂 烂结 结痂 痂年 年余 余现 现病 病史 患者
PMI2 主诉 全身 皮肤 红斑 丘疹 加重 伴糜 结痂 现病 病史
患者 年前 明显 诱因 出现 皮损 对症 分布 疗后 以来
PMI3 <未提取到任何词语>
PMI+LR 主诉 全身 皮肤 肤红 红斑 丘疹 加重 伴糜 结痂 现病
病史 患者 年前 明显 显诱 诱因 出现 皮损 对症 分布
表2  新词提取情况示例
模型 词语数量 准确率 召回率
PMI 43 531 19.7% 100%
PMI2 852 89.7% 8.9%
PMI3 0 - 0
PMI+LR 8 605 80.3% 82.1%
表3  新词提取数量统计
词语个数 专有词语
二字
词语
充盈 肌酐 管瘤 囊肿 盗汗 望城 甲亢 晕厥 祁阳 癫痫 汤剂 麝香 胬肉 吡嗪 东莞 挛缩 钡餐
三字
词语
汉寿县 过敏史 甲状腺 尿常规 甘石洗 踝关节 转氨酶 脱氢酶 银屑病 娄底市 磷霉素 岳阳市 东安县 肾移植 骨髓瘤 江华县 宜章县
四字
词语
头孢他啶 地塞米松 苯海拉明 活血化瘀 灰黄霉素 右旋糖酐 宣武医院 黔东南州 张家界市 呋喃唑酮 核糖核酸 高钾血症 重铬酸钾
表4  医学专有词语及地名提取情况示例
分词方法 准确率 召回率 F1值
jieba 0.781 0.812 0.752
PMI+jieba 0.822 0.876 0.848
PMI2+jieba 0.834 0.869 0.851
PMI3+jieba 0.781 0.812 0.752
PMI+LR+jieba 0.908 0.956 0.929
表5  各分词模型的指标值
[1] 雷健波 . 电子病历的核心价值与临床决策支持[J]. 中国数字医学, 2008,3(3):26-30.
( Lei Jianbo . Clinical Decision Support and the Core Value of Electronic Medical Record[J]. China Digital Medicine, 2008,3(3):26-30.)
[2] 李国垒, 陈先来, 夏冬 , 等. 面向临床决策的电子病历文本潜在语义分析[J]. 现代图书情报技术, 2016(3):50-57.
( Li Guolei, Chen Xianlai, Xia Dong , et al. Latent Semantic Analysis of Electronic Medical Record Text for Clinical Decision Making[J]. New Technology of Library and Information Service, 2016(3):50-57.)
[3] Zhang S, Kang T, Zhang X , et al. Speculation Detection for Chinese Clinical Notes: Impacts of Word Segmentation and Embedding Models[J]. Journal of Biomedical Informatics, 2016,60:334-341.
[4] 蒋志鹏, 赵芳芳, 关毅 , 等. 面向中文电子病历的词法语料标注研究[J]. 高技术通讯, 2014,24(6):609-615.
( Jiang Zhipeng, Zhao Fangfang, Guan Yi , et al. Research on Chinese Electronic Medical Record Oriented Lexical Corpus Annotation[J]. Chinese High Technology Letters, 2014,24(6):609-615.)
[5] 张立邦, 关毅, 杨锦峰 . 基于无监督学习的中文电子病历分词[J]. 智能计算机与应用, 2014,4(2):68-71.
( Zhang Libang, Guan Yi, Yang Jinfeng . An Unsupervised Approach to Word Segmentation in Chinese EMRs[J]. Intelligent Computer and Applications, 2014,4(2):68-71.)
[6] Sui Z, Chen Y. The Research on the Automatic Term Extraction in the Domain of Information Science and Technology [C]// Proceedings of the 5th East Asia Forum of the Terminology. 2002.
[7] 任智慧, 徐浩煜, 封松林 , 等. 基于LSTM网络的序列标注中文分词法[J]. 计算机应用研究, 2017,34(5):1321-1324.
( Ren Zhihui, Xu Haoyu, Feng Songlin , et al. Sequence Labeling Chinese Word Segmentation Method Based on LSTM Networks[J]. Application Research of Computers, 2017,34(5):1321-1324.)
[8] Said L B, Bechikh S, Ghedira K . The R-Dominance: A New Dominance Relation for Interactive Evolutionary Multicriteria Decision Making[J]. IEEE Transactions on Evolutionary Computation, 2010,14(5):801-818.
[9] Xue N, Shen L. Chinese Word Segmentation as LMR Tagging [C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. 2003: 176-179.
[10] Chen X, Qiu X, Zhu C, et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1197-1206.
[11] Chen X, Qiu X, Zhu C, et al. Gated Recursive Neural Network for Chinese Word Segmentation [C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. 2015,1:1744-1753.
[12] 宗成庆 . 统计自然语言处理[M]. 北京: 清华大学出版社, 2008: 103-146.
( Zong Chengqing. Statistical Natural Language Processing[M]. Beijing: Tsinghua University Press, 2008: 103-146.)
[13] Pecina P, Schlesinger P. Combining Association Measures for Collocation Extraction [C]// Proceedings of the 21st International Conference on Computational Linguistics. 2006: 651-658.
[14] 刘华 . 一种快速获取领域新词语的新方法[J]. 中文信息学报, 2006,20(5):19-25.
( Liu Hua . A New Approach for Domain New Words Detection[J]. Journal of Chinese Information Processing, 2006,20(5):19-25.)
[15] 韩艳, 林煜熙, 姚建明 . 基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报, 2009,23(3):24-30.
( Han Yan, Lin Yuxi, Yao Jianming . Study on Chinese OOV Identification Based on Extension[J]. Journal of Chinese Information Processing, 2009,23(3):24-30.)
[16] 梁颖红, 张文静, 周德富 . 基于混合策略的高精度长术语自动抽取[J]. 中文信息学报, 2009,23(6):26-31.
( Liang Yinghong, Zhang Wenjing, Zhou Defu . A Hybrid Strategy for High Precision Long Term Extraction[J]. Journal of Chinese Information Processing, 2009,23(6):26-31.)
[17] 孙继鹏, 贾民, 刘增宝 . 一种面向文本的概念抽取方法的研究[J]. 计算机应用与软件, 2009,26(9):28-30.
( Sun Jipeng, Jia Min, Liu Zengbao . On A Text-Oriented Concept Extraction Technique[J]. Computer Applications and Software, 2009,26(9):28-30.)
[18] Pazienza M T, Pennacchiotti M, Zanzotto F M. Terminology Extraction: An Analysis of Linguistic and Statistical Approaches [C]// Proceedings of the NEMIS 2004 Final Conference. 2005: 255-279.
[19] Bouma G. Normalized (Pointwise) Mutual Information in Collocation Extraction [C]// Proceedings of the 2009 International Conference of the German Society for Computational Linguistics and Language Technology. 2009: 31-40.
[20] 杜丽萍, 李晓戈, 周元哲 , 等. 互信息改进方法在术语抽取中的应用[J]. 计算机应用, 2015,35(4):996-1000.
doi: 10.11772/j.issn.1001-9081.2015.04.0996
( Du Liping, Li Xiaoge, Zhou Yuanzhe , et al. Application of Improved Point-Wise Mutual Information in Term Extraction[J]. Journal of Computer Applications, 2015,35(4):996-1000.)
doi: 10.11772/j.issn.1001-9081.2015.04.0996
[21] 杜丽萍, 李晓戈, 于根 , 等. 基于互信息改进算法的新词发现对中文分词系统改进[J]. 北京大学学报:自然科学版, 2016,52(1):35-40.
( Du Liping, Li Xiaoge, Yu Gen , et al. New Word Detection Based on an Improved PMI Algorithm for Enhancing Segmentation System[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016,52(1):35-40.)
[22] 牟冬梅, 任珂 . 三种数据挖掘算法在电子病历知识发现中的比较[J]. 现代图书情报技术, 2016(6):102-109.
( Mu Dongmei, Ren Ke . Discovering Knowledge from Electronic Medical Records with Three Data Mining Algorithms[J]. New Technology of Library and Information Service, 2016(6):102-109.)
[23] 郭坤, 王浩, 姚宏亮 , 等. 逻辑回归分析的马尔可夫毯学习算法[J]. 智能系统学报, 2012,7(2):153-160.
( Guo Kun, Wang Hao, Yao Hongliang , et al. An Algorithm for a Markov Blanket Based on Logistic Regression Analysis[J]. CAAI Transactions on Intelligent Systems, 2012,7(2):153-160.)
[24] 顾鑫, 曹丹华, 吴裕斌 , 等. 基于逻辑回归的多任务域快速分类学习算法[J]. 计算机工程与应用, 2017,53(15):47-56.
( Gu Xin, Cao Danhua, Wu Yubin , et al. Multi- task Coupled Logistic Regression and Its Fast Implementation for Large Multi-task Datasets. Computer Engineering and Applications, 2017,53(15):47-56.)
[25] 官琴, 邓三鸿, 王昊 . 中文文本聚类常用停用词表对比研究[J]. 数据分析与知识发现, 2017,1(3):72-80.
( Guan Qin, Deng Sanhong, Wang Hao . Chinese Stopwords for Text Clustering: A Comparative Study[J]. Data Analysis and Knowledge Discovery, 2017,1(3):72-80.)
[26] 黄昌宁, 赵海 . 中文分词十年回顾[J]. 中文信息学报, 2007,21(3):8-19.
( Huang Changning, Zhao Hai . Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007,21(3):8-19.)
[1] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[2] 冯国明,张晓冬,刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[3] 倪维健,孙浩浩,刘彤,曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[4] 王晓玉,李斌. 基于CRFs和词典信息的中古汉语自动分词*[J]. 数据分析与知识发现, 2017, 1(5): 62-70.
[5] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[6] 罗文馨,陈翀,邓思艺. 基于Word2Vec及大众健康信息源的疾病关联探测[J]. 现代图书情报技术, 2016, 32(9): 78-87.
[7] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[8] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[9] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[10] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[11] 石崇德, 王惠临. 统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术, 2012, 28(4): 29-34.
[12] 谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
[13] 常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
[14] 程肖, 陆蓓, 谌志群. 热点主题词提取方法研究[J]. 现代图书情报技术, 2010, 26(10): 43-48.
[15] 麦范金,王挺.
基于双向最大匹配和HMM的分词消歧模型*
[J]. 现代图书情报技术, 2008, 24(8): 37-41.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn