Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (12): 28-33    DOI: 10.11925/infotech.1003-3513.2010.12.05
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
上下文分析与统计特征相结合的英文术语抽取研究
许德山1,2, 张智雄1, 王峰3, 邢美凤1,2
1. 中国科学院国家科学图书馆 北京 100190;
2. 中国科学院研究生院 北京 100049;
3. 中北大学电子测试技术国家重点实验室 太原 030051
English Term Extraction Based on Context Analysis & Statistical Characteristic
Xu Deshan1,2, Zhang Zhixiong1, Wang Feng3, Xing Meifeng1,2
1. National Science Library, Chinese Academy of Sciences, Beijing 100190, China;
2. Graduate University of Chinese Academy of Sciences,Beijing 100049,China;
3. National Key Laboratory for Electronic Measurement Technology, North University of China, Taiyuan 030051,China
全文: PDF(628 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术语自动抽取系统,通过位置权重、C-value、TF-IDF指标的联合计算来识别术语,提高抽取的准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
许德山
张智雄
王峰
邢美凤
关键词 术语抽取多词术语识别加权TF-IDFC-value计算    
Abstract

Firstly, the article introduces the basic features of terms, and discusses the automatic identification method of scientific terms. Then V-value is proposed, which improves the two main statistical indicators:TF-IDF and C-value according to text characteristics. Different weights are also set for the candidate terms by the position to show their effect. Finally, a term extraction system is implemented based on statistics and rules. The system combines the weight, C-value and TF-IDF, so it has a higher precision of extraction.

Key wordsTerm    extraction    Multi-word    recognition    Weighted    TF-IDF    C-value    computing
收稿日期: 2010-09-30     
: 

TP391

 
基金资助:

本文系“十一五”科技支撑计划课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。

引用本文:   
许德山, 张智雄, 王峰, 邢美凤. 上下文分析与统计特征相结合的英文术语抽取研究[J]. 现代图书情报技术, 2010, 26(12): 28-33.
Xu Deshan, Zhang Zhixiong, Wang Feng, Xing Meifeng. English Term Extraction Based on Context Analysis & Statistical Characteristic. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2010.12.05.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.12.05


[1] Krauthammer M, Nenadic G. Term Identification in the Biomedical Literature
[J].Journal of Biomedical Informatics,2004,37(6):512-526.

[2] Frantzi K T, Ananiadou S, Tsujii J.The C-value/NC-value Method of Automatic Recognition for Multi-word Terms.In: Proceedings of the 2nd European Conference on Research and Advanced Technology for Digital Libraries.1998:585-604.

[3] Terminology.http://en.wikipedia.org/wiki/Term_(language.

[4] 百度百科-术语. http://baike.baidu.com/view/168249.htm?fr=ala0_1.

[5] Ha L Q, Sicilia-Garcia E I, Ming J,et al. Extension of Zipf’s Law to Word and Character N-grams for English and Chinese
[J].Computational Linguistics and Chinese Language Processing,2003,8(1):77-102.

[6] 张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究
[J]. 计算机工程与应用,2007,43(35):159-161.

[7] Frantzi K, Ananiadou S, Mima H. Automatic Recognition of Multi-Word Terms: The C-value/NC-value Method
[J].International Journal on Digital Libraries, 2000,3(2):115-130.

[8] 陈琦,伍朝辉,姚芳,等.基于TF*IDF的垃圾邮件过滤特征选择改进算法
[J]. 计算机应用研究,2009,26(6):2165-2167.

[9] Sebastiani F. Machine Learning in Automated Text Categorization
[J].ACM Computing Surveys,2002,34(1):1-47.

[1] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[2] 姜霖,王东波. 采用连续词袋模型(CBOW)的领域术语自动抽取研究*[J]. 现代图书情报技术, 2016, 32(2): 9-15.
[3] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[4] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[5] 唐守利, 徐宝祥. 基于本体的云服务语义检索系统研究[J]. 现代图书情报技术, 2014, 30(12): 27-35.
[6] 汤青,吕学强,李卓,施水才,. 领域本体术语抽取研究*[J]. 现代图书情报技术, 2014, 30(1): 43-50.
[7] 熊李艳, 谭龙, 钟茂生. 基于有效词频的改进C-value自动术语抽取方法[J]. 现代图书情报技术, 2013, 29(9): 54-59.
[8] 化柏林. 针对中文学术文献的情报方法术语抽取[J]. 现代图书情报技术, 2013, (6): 68-75.
[9] 胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013, 29(2): 24-29.
[10] 李振清, 刘建毅, 王枞, 吴旭. 同行评议专家遴选系统研究与实现[J]. 现代图书情报技术, 2012, 28(5): 81-86.
[11] 康小丽, 章成志. 用于双语术语抽取的专业领域中英文可比语料库构建[J]. 现代图书情报技术, 2012, 28(2): 28-33.
[12] 康小丽,章成志,王惠临. 基于可比语料库的双语术语抽取研究述评*[J]. 现代图书情报技术, 2009, (10): 7-13.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn