Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (9): 54-59     https://doi.org/10.11925/infotech.1003-3513.2013.09.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于有效词频的改进C-value自动术语抽取方法
熊李艳, 谭龙, 钟茂生
华东交通大学信息工程学院 南昌 330013
An Automatic Term Extraction System of Improved C-value Based on Effective Word Frequency
Xiong Liyan, Tan Long, Zhong Maosheng
School of Information Engineering, East China Jiaotong University, Nanchang 330013, China
全文: PDF (453 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 现有的中文术语自动抽取方法主要针对术语的高频特征与单元性指标,而低频术语和术语的术语性指标缺乏有效的处理方法。针对上述问题,将背景语料库引入C-value方法,提出词语领域分布度与有效词频的概念,通过计算候选术语的EC-value值来自动抽取术语,并结合术语簇识别与挖掘,改善低频术语抽取性能。通过计算机领域术语抽取实验,表明本文提出的改进方法(EC-value方法)能更有效地衡量术语的术语性,改善低频术语抽取性能。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
熊李艳
钟茂生
谭龙
关键词 自动术语抽取EC-value有效词频术语簇    
Abstract:Existing Chinese term automatic extraction methods focus on the high-frequency characteristics and unithood indicators of terms, while low frequency terms and termhood indicators lack of effective treatment methods. In response to these problems, this paper introduces the background corpus into C-value method and proposes the concepts of word field distribution degree and effective word frequency. Then the paper automatically extracts the terms by calculating EC-value (Effective C-value) of candidate terms, and improves the extraction performance of low-frequency terms combined with the term cluster recognition and mining. The term extraction experiment in the computer field shows that the proposed improved method (EC-value method) can measure the termhood of terms more effectively, and improve the extraction performance of low-frequency terms.
Key wordsAutomatic term extraction    EC-value    Effective word frequency    Term cluster
收稿日期: 2013-06-17      出版日期: 2013-09-27
:  TP391.1  
基金资助:本文系国家自然科学基金项目“论证体篇章'结构与语义’协同交叉分析模型与算法研究”(项目编号:61240036)、教育部人文社会科学基金项目“论证体篇章'结构与语义’协同分析方法研究”(项目编号:11YJC740157)和江西省自然科学基金项目“面向语义理解的网页文本'结构与语义’协同交叉分析模型研究”(项目编号:20114BAB201027)的研究成果之一。
通讯作者: 谭龙     E-mail: tanlonga109@163.com
引用本文:   
熊李艳, 谭龙, 钟茂生. 基于有效词频的改进C-value自动术语抽取方法[J]. 现代图书情报技术, 2013, 29(9): 54-59.
Xiong Liyan, Tan Long, Zhong Maosheng. An Automatic Term Extraction System of Improved C-value Based on Effective Word Frequency. New Technology of Library and Information Service, 2013, 29(9): 54-59.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.09.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I9/54
[1] 谷俊,王昊.基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术,2011 (4):29-34.(Gu Jun,Wang Hao.Study on Term Extraction on the Basis of Chinese Domain Texts[J].New Technology of Library and Information Service,2011(4):29-34.)
[2] 祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J]. 图书情报工作,2012,56(18):104-109.(Zhu Qingsong,Leng Fuhai.Existing Problems and Developing Trends of Automatic Term Recognition[J].Library and Information Service,2012,56(18):104-109.)
[3] 韩红旗,安小米.C-value值和Unithood指标结合的中文科技术语抽取[J]. 图书情报工作,2012,56(19):85-89.(Han Hongqi,An Xiaomi.Chinese Scientific and Technical Term Extraction by Using C-value and Unithood Measure[J].Library and Information Service,2012,56(19):85-89.)
[4] 胡健坤.基于齐次马尔可夫链的中文新术语识别方法研究[D].广州:华南理工大学,2012.(Hu Jiankun.Chinese New Term Detection Method Based on Homogeneous Markov Chain Research[D].Guangzhou:South China University of Technology,2012.)
[5] 季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作,2010,54(16):124-l29.(Ji Peipei,Yan Xiaoyan,Cen Yonghua.A Survey of Term Recognition and Extraction for Domain-specific Chinese Text Information Processing[J].Library and Information Service,2010,54(16):124-129.)
[6] Frantzi K,Ananiadou S,Mima H.Automatic Recognition of Multi-word Terms:The C-value/NC-value Method[J].International Journa1 on Digital Libraries,2000,3(2):115-130.
[7] 周浪,史树敏,冯冲,等.基于多策略融合的中文术语抽取方法[J]. 情报学报,2010,29(3):460-467.(Zhou Lang,Shi Shumin,Feng Chong,et al.A Chinese Term Extraction System Based on Multi-Strategies Integration[J].Journal of the China Society for Scientific and Technical Information,2010,29(3):460-467.)
[8] 胡阿沛,张静,刘俊丽.基于改进C-value 方法的中文术语抽取[J]. 现代图书情报技术,2013 (2):24-29.(Hu Apei,Zhang Jing,Liu Junli.Chinese Term Extraction Based on Improved C-value Method[J].New Technology of Library and Information Service,2013 (2):24-29.)
[9] Milios E,Zhang Y,He B,et al.Automatic Term Extraction and Document Similarity in Special Text Corpora[C].In:Proceedings of the 6th Conference of the Pacific Association for Computational Linguistics,Halifax,Canada.2003:1-10.
[10] Barrón-Cedeo A,Sierra G,Drouin P,et al.An Improved Automatic Term Recognition Method for Spanish[C].In:Proceedings of the 10th International Conference on Computational Linguistics and Intelligent Text Processing.Heidelberg:Springer-Verlag,2009:125-136.
[11] Mima H,Ananiadou S.An Application and Evaluation of the C/NC-value Approach for the Automatic Term Recognition of Multi-word Units in Japanese[J].International Journal of Terminology,2001,6(2):175-194.
[12] 李嵩.语言学文献标题的术语提取研究[D].济南:山东大学,2007.(Li Song. Terminology Extraction Research of Linguistic Literature Titles[D].Jinan:Shandong University,2007.)
[13] 周浪.中文术语抽取若干问题研究[D].南京:南京理工大学,2010.(Zhou Lang.A Study on the Chinese Term Extraction[D].Nanjing:Nanjing University of Science and Technology,2010.)
[14] 梁颖红,张文静,张有承.C 值和互信息相结合的术语抽取[J]. 计算机应用与软件,2010,27(4):108-110.(Liang Yinghong,Zhang Wenjing,Zhang Youcheng.Term Recognition Based on Integration of C-Value and Mutual Information[J].Computer Applications and Software,2010,27(4):108-110.)
[15] Manning C D,Schütze H.Foundation of Statistical Natural Language Processing[M].Cambridge,MA:MIT Press,1999.
[1] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[2] 刘欢, 张智雄, 王宇飞. BERT模型的主要优化改进方法研究综述 [J]. 数据分析与知识发现, 0, (): 1-.
[3] 叶光辉, 徐彤, 毕崇武, 李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析 [J]. 数据分析与知识发现, 0, (): 1-.
[4] 刘婧茹, 宋阳, 贾睿, 张翼鹏, 罗勇, 马敬东. 基于BiLSTM-CRF中文临床文本中受保护的健康信息识别 [J]. 数据分析与知识发现, 0, (): 0-.
[5] 石磊,王毅,成颖,魏瑞斌. 自然语言处理中的注意力机制研究综述*[J]. 数据分析与知识发现, 2020, 4(5): 1-14.
[6] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
[7] 刘书瑞,田继东,陈普春,赖立,宋国杰. 基于文本数据的过滤式与嵌入式样本选择算法*[J]. 数据分析与知识发现, 2020, 4(2/3): 223-230.
[8] 徐建民,张丽青,王苗. 基于贝叶斯网络的静态话题追踪模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 200-206.
[9] 谭荧,张进,夏立新. 社交媒体情境下的情感分析研究综述[J]. 数据分析与知识发现, 2020, 4(1): 1-11.
[10] 聂卉,何欢. 引入词向量的隐性特征识别研究*[J]. 数据分析与知识发现, 2020, 4(1): 99-110.
[11] 李博诚,张云秋,杨铠西. 面向微博商品评论的情感标签抽取研究 *[J]. 数据分析与知识发现, 2019, 3(9): 115-123.
[12] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[13] 余传明, 龚雨田, 王峰, 安璐. 基于文本价格融合模型的股票趋势预测*[J]. 数据分析与知识发现, 2018, 2(12): 33-42.
[14] 曾子明, 杨倩雯. 基于LDA和AdaBoost多特征组合的微博情感分析*[J]. 数据分析与知识发现, 2018, 2(8): 51-59.
[15] 贾隆嘉, 张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn