Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (1): 15-21    DOI: 10.11925/infotech.1003-3513.2013.01.03
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
基于混合策略的中文生物医学领域未登录词识别研究
孙海霞1, 李军莲1, 吴英杰1, 吴夙慧2
1. 中国医学科学院医学信息研究所 北京100020;
2. 南京大学信息管理系 南京 210093
The Study on Out-of-vocabulary Identification of Chinese Biomedical Field Based on Hybrid Method
Sun Haixia1, Li Junlian1, Wu Yingjie1, Wu Suhui2
1. Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China;
2. Department of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF(1057 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴夙慧
孙海霞
李军莲
吴英杰
关键词 未登录词N-gram混合策略生物医学    
Abstract:First, the status of research on out-of-vocabulary automatic identification is introduced briefly. Then,combining the word length distribution and morphological characteristics of Chinese biomedical field, this paper presents an hybrid method of out-of-vocabulary identification of Chinese biomedical field, which is based on N-gram, integrating the methods of the field dictionary-based, filtered corpus-based, and rules-based. Finally, on a sample set of pharmaceutical journals data of Chinese BioMedical Literature Database, the authors make an experiment of the proposed hybrid method, and the experimental results achieve a good performance.
Key wordsOut-of-vocabulary    N-gram    Hybrid method    Biomedical
收稿日期: 2012-12-17     
:  TP393  
基金资助:本文系国家“十二五”科技支撑计划项目“科技知识组织体系的协同工作系统和辅助工具开发”(项目编号:2011BAH10B02)和中国医学科学院医学信息研究所基本科研业务专项“基于CMeSH的中文生物医学文献文本概念映射研究”(项目编号:10R0115)的研究成果之一。
通讯作者: 孙海霞     E-mail: sun.haixia@imicams.ac.cn
引用本文:   
孙海霞, 李军莲, 吴英杰, 吴夙慧. 基于混合策略的中文生物医学领域未登录词识别研究[J]. 现代图书情报技术, 2013, 29(1): 15-21.
Sun Haixia, Li Junlian, Wu Yingjie, Wu Suhui. The Study on Out-of-vocabulary Identification of Chinese Biomedical Field Based on Hybrid Method. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2013.01.03.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.01.03
[1] 张海军,史树敏,朱朝勇,等. 中文新词识别技术综述[J]. 计算机科学,2010,37(3): 6-12. (Zhang Haijun, Shi Shumin, Zhu Chaoyong, et al. Survey of Chinese New Words Identification [J]. Computer Science, 2010, 37(3): 6-12.)
[2] 郑家恒,李文花. 基于构词法的网络新词自动识别初探[J]. 山西大学学报:自然科学版,2002,25(2):115-119. (Zheng Jiaheng, Li Wenhua. A Study on Automatic Identification for Internet New Words Accorging to Word-Building Rule [J]. Journal of Shanxi University:Natural Science Edition, 2002, 25(2):115-119.)
[3] 周雷. 基于碎片分词的未登录词识别方法[J]. 常熟理工学院学报:自然科学版,2007,21(2):77-81. (Zhou Lei. The Recognition Method of Unknown Chinese Words Based on Fragments Segmentation [J]. Journal of Changshu Institute of Technology:Natural Sciences, 2007,21(2):77-81.)
[4] 段宇锋, 鞠菲. 基于N-gram的专业领域中文新词识别研究[J]. 现代图书情报技术, 2012(2): 41-47. (Duan Yufeng, Ju Fei. Research on Chinese New Word Recognition in Specialized Field Based on N-gram[J].New Technology of Library and Information Service, 2012(2): 41-47.)
[5] 韩艳,林煜熙,姚建民. 基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报,2009,23(3): 24-30. (Han Yan, Lin Yuxi, Yao Jianmin. Study on Chinese OOV Identification Based on Extension [J]. Journal of Chinese Information Processing, 2009, 23(3): 24-30.)
[6] 李钝,曹元大,万月亮. Internet中的新词识别[J]. 北京邮电大学学报,2008,31(1):26-29. (Li Dun, Cao Yuanda, Wan Yueliang. Internet-oriented New Words Identification[J]. Journal of Beijing University of Posts and Telecommunications, 2008, 31(1):26-29.)
[7] Wu A D, Jiang Z X. Statistically-enhanced New Word Identification in a Rule-based Chinese System[C]. In: Proceedings of the 2nd Workshop on Chinese Language, Hong Kong, China. 2000:46-51.
[8] 曹艳,杜慧平,刘竞,等. 基于词表和N-gram算法的新词识别试验[J]. 情报科学,2007,25(11): 1687-1695. (Cao Yan, Du Huiping, Liu Jing, et al. An Experiment of New Words Identification Based on Vocabulary and N-gram Algorithm [J].Information Science, 2007, 25(11): 1687-1695.)
[9] 贺敏,龚才春,张华平,等. 一种基于大规模语料的新词识别方法[J]. 计算机工程与应用,2007,43(21):157-159. (He Min, Gong Caichun, Zhang Huaping, et al. Method of New Word Identification Based on Larger-scale Corpus[J]. Computer Engineering and Applications, 2007, 43(21):157-159.)
[10] 张海军,史树敏,丁溪源,等. 基于分词提取重复串的未登录词遗漏量化模型[J]. 中文信息学报,2011,25(2):122-128. (Zhang Haijun, Shi Shumin, Ding Xiyuan, et al. Quantitative Omission Model of Candidate Unknown Words for Chinese Word Segmentation Based Repeat Extraction[J]. Journal of Chinese Information Processing, 2011,25(2):122-128.)
[11] 魏莎莎. 一种中文未登录词识别及词典设计新方法[D].重庆:西南大学,2011. (Wei Shasha. A New Method of Chinese Out-of-Vocabulary Identification and Dictionary Design[D].Chongqing: Southwest University,2011.)
[12] 中国生物医学文献数据库[EB/OL]. [2012-04-14]. http://www.sinomed.ac.cn/. (China Biology Medicine[EB/OL]. [2012-04-14]. http://www.sinomed.ac.cn/.)
[13] 哈工大停用词表 [EB/OL]. [2012-05-14]. http://wenku.baidu.com/view/b8b30382e53a580216fcfeb7.html. (HIT Stop-Words List [EB/OL]. [2012-05-14]. http://wenku.baidu.com/view/b8b30382e53a580216fcfeb7.html.)
[1] 刘清民,姚长青,石崇德,温晓洁,孙玥莹. 面向科技文献神经机器翻译词汇表优化研究*[J]. 数据分析与知识发现, 2019, 3(3): 76-82.
[2] 孙海霞,王蕾,吴英杰,华薇娜,李军莲. 科技文献数据库中机构名称匹配策略研究*[J]. 数据分析与知识发现, 2018, 2(8): 88-97.
[3] 张志强,范少萍,陈秀娟. 面向精准医学知识发现的生物医学信息学发展*[J]. 数据分析与知识发现, 2018, 2(1): 1-8.
[4] 段建勇,关晓龙. 基于统计和特征相结合的查询纠错方法研究*[J]. 现代图书情报技术, 2016, 32(2): 34-42.
[5] 范云满, 洪娜, 钱庆, 方安. 利用Hadoop/HBase的药物基因组数据云存储实践研究[J]. 现代图书情报技术, 2015, 31(5): 73-79.
[6] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[7] 王昊, 李思舒, 邓三鸿. 基于N-Gram的文本语种识别研究[J]. 现代图书情报技术, 2013, (4): 54-61.
[8] 王秀艳, 崔雷. 采用混合方法抽取生物医学实体间语义关系[J]. 现代图书情报技术, 2013, 29(3): 77-82.
[9] 段宇锋, 鞠菲. 基于N-Gram的专业领域中文新词识别研究[J]. 现代图书情报技术, 2012, 28(2): 41-47.
[10] 王秀艳, 崔雷. 应用关键动词抽取生物医学实体间语义关系研究综述[J]. 现代图书情报技术, 2011, 27(9): 21-27.
[11] 白如江, 于晓繁, 王效岳. 国内外主要本体库比较分析研究[J]. 现代图书情报技术, 2011, 27(1): 3-13.
[12] 余希田,万莉莉,胡铁军,李丹亚. 基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008, 24(6): 61-66.
[13] 张金柱,张东,王惠临. 基于字位信息的中文分词方法研究*[J]. 现代图书情报技术, 2008, 24(5): 39-43.
[14] 黄水清,程冲 . 基于既定词表的自适应汉语分词技术研究[J]. 现代图书情报技术, 2006, 1(5): 13-17.
[15] 雷春炳,张晓梅,颜世刚,王国庆,陈建青,刘金玉,杜云祥. 西文生物医学期刊文献数据库(EMCC)建设[J]. 现代图书情报技术, 2005, 21(8): 54-57.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn