Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (8): 31-36     https://doi.org/10.11925/infotech.1003-3513.2008.08.05
  专题 本期目录 | 过刊浏览 | 高级检索 |
一种从医学文本中实现自动关键词抽取和筛选的技术方法*
殷蜀梅1   张智雄2    吴振新2
1(北京大学医学图书馆 北京 100083)
2(中国科学院国家科学图书馆 北京100190)
A Method for Automatic Keyword Extraction and Filtration from Medical Texts
Yin Shumei1  Zhang Zhixiong2   Wu Zhenxin2
1 (Peking University Health Science Library, Beijing 100083,China) 
2 (National Science Library, Chinese Academy of Sciences, Beijing 100190,China)
全文: PDF (525 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴振新
殷蜀梅
张智雄
关键词 关键词抽取关键词筛选BM25FMMTx文本挖掘医学数据挖掘    
Abstract

Seeing that the keyword or key phrase can represent the feature of text, keyword extraction and filtration has great significance for information retrieval, information extraction and knowledge discovery. This paper first investigates current keyword extraction methods. Then it uses existing thesaurus and tools in the medical field and BM25F model in proposing a method for keyword extraction and filtration from medical texts. The proposed method mainly solves two key problems:identification and extraction of keywords, evaluation of keyword value and filtration of keywords. This paper applies the method on documents in the field of osteoarthritis from the year 2001 to 2007, and verifies its effectiveness, which offers an effective way for extracting keywords in knowledge discovery.

Key wordsKeyword extraction    Keyword filtration    BM25F    MMTx    Text mining    Medical data mining
收稿日期: 2008-06-16      出版日期: 2008-08-25
: 

G250.73

 
基金资助:

*本文系国家社会科学基金项目“从数字信息资源中实现知识抽取的理论和方法研究”(项目编号:05BTQ006)的研究成果之一。

通讯作者: 殷蜀梅     E-mail: Yinshumei@lib.bjmu.edu.cn
作者简介: 殷蜀梅,张智雄,吴振新
引用本文:   
殷蜀梅,张智雄,吴振新. 一种从医学文本中实现自动关键词抽取和筛选的技术方法*[J]. 现代图书情报技术, 2008, 24(8): 31-36.
Yin Shumei,Zhang Zhixiong,Wu Zhenxin. A Method for Automatic Keyword Extraction and Filtration from Medical Texts. New Technology of Library and Information Service, 2008, 24(8): 31-36.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.08.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I8/31

[1] 刘华. 基于文本分类中特征提取的领域词语聚类[J]. 语言文字应用,2007(1):139-144.
[2] Blank G D,Pottenger W M, Kessler C D. CIMEL:Constructive and Collaborative, Inquiry-based Multimedia E-Learning[EB/OL]. [2007-08-01].   http://dimacs.rutgers.edu/~billp/pubs/ITICSE01.pdf.
[3] Porter A L,Detampel M J. Technology Opportunities Analysis[J]. Technological Forecasting and Social Change, 1995,49:237-255.
[4] Essential Science Indicators[EB/OL]. [2007-08-01]. http://www.esi-topics.com/RFmethodology.html.
[5] Swan R, Jensen D. TimeMines:Constructing Timelines with Statistical Models of Word Usage[EB/OL]. [2007-08-01].  http://www.cs.cmu.edu/~dunja/KDDpapers/Swan_TM.pdf.
[6] Lowe HJ, Barnett GO. Remote Access MicroMeSH:A Microcomputer System for Searching MEDLINE[C].In: The Proceedings Annual Symposium on Computer Application in Medical Care, 1988:535-539.
[7] Miller RA, Gieszczykiewicz FM, Vries JK, et al. CHARTLINE:Providing Bibliographic References Relevant to Patient Charts Using the UMLS Metathesaurus Knowledge Sources[C].In:the Proceedings Annual Symposium on Computer Application in Medical Care. 1992:86-90.
[8] Evans DA, Hersh WR, Monarch IA, et al. Automatic Indexing of Abstracts via Natural-language Processing Using a Simple Thesaurus[J]. Medical Decision Making, 1991,11(4):S108-S115.
[9] Gordon M, Holt DG, Panigrahi A, et al. Genome-wide Dynamics of SAPHIRE, an Essential Complex for Gene Activation and Chromatin Boundaries[J]. Molecular and Cellular Biology, 2007,27(11):4058-69.
[10] MMTx[EB/OL]. [2007-08-01].  http://mmtx.nlm.nih.gov/.
[11] Aronson A R. MetaMap Variant Generation[EB/OL]. [2007-08-01]. http://skr.nlm.nih.gov/papers/references/mm.variants.pdf.
[12] Robertson S E, Walker S. Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval[EB/OL]. [2007-08-01]. http://www.computing.dcu.ie/~gjones/Teaching/CA437/p232.pdf.
[13] Robertson S E,  Walker S, Jones K S, et al. Okapi at TREC-3[C]. In:Proceedings of 3rd Text Retrieval Conference (TREC-3), 1995, 109-126.
[14] 陆伟. 基于域加权词频法的XML文档级检索实现与评价[J]. 中国图书馆学报, 2006(6):57-60.
[15] de Mattei M, Pellati A, Pasello M, et al. High Doses of Glucosamine-HCl have Detrimental Effects on Bovine Articular Cartilage Explants Cultured in Vitro[J]. Osteoarthritis and Cartilage. 2002,10(10):816-25.

[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 许光,任明,宋城宇. 西方媒体新闻中的中国经济形象提取*[J]. 数据分析与知识发现, 2021, 5(5): 30-40.
[3] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[4] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[5] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[6] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[7] 杜建. 医学知识不确定性测度的进展与展望*[J]. 数据分析与知识发现, 2020, 4(10): 14-27.
[8] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[9] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[10] 杨亚楠,赵文辉,张健,谭珅,张贝贝. 基于多视图协同的政策文本可视化研究*[J]. 数据分析与知识发现, 2019, 3(6): 30-41.
[11] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[12] 张震,曾金. 面向用户评论的关键词抽取研究*——以美团为例[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[13] 李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
[14] 张宁, 尹乐民, 何立峰. 网络股评“发布者-关注者”BSI与股票市场关联性研究*[J]. 数据分析与知识发现, 2018, 2(6): 1-12.
[15] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn