Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (4): 29-34    DOI: 10.11925/infotech.1003-3513.2011.04.05
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于领域中文文本的术语抽取方法研究
谷俊1,2, 王昊1
1. 南京大学信息管理系 南京 210093;
2. 上海宝山钢铁股份有限公司 上海 201900
Study on Term Extraction on the Basis of Chinese Domain Texts
Gu Jun1,2, Wang Hao1
1. Department of Information Management, Nanjing University, Nanjing 210093,China;
2. Baoshan Iron and Steel Company Ltd., Shanghai 201900,China
全文: PDF(541 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谷俊
王昊
关键词 本体概念抽取串频最大匹配TF-IDF中文分词    
Abstract:Based on the ICTCLAS dictionary segmentation, this paper proposes a method that extracts relevant concept terminology from the Chinese patent texts by maximum matching and frequency statistics, then computes the weights of the items by TF-IDF and gets the final concept terminology. Finally, it analyzes the results with the sample data extraction experiments.
Key wordsOntology    Concept extraction    Maximum matching and frequency statistics    TF-IDF    Chinese word segmentation
收稿日期: 2011-02-10     
: 

TP391

 
引用本文:   
谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
Gu Jun, Wang Hao. Study on Term Extraction on the Basis of Chinese Domain Texts. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2011.04.05.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.04.05
[1] Berners-Lee T, Hendler J, Lassila O. The Semantic Web[J]. Scientific American, 2001,284(5): 28-37.

[2] Ying D, Schubea F. Ontology Research and Development. Part I: A Review of Ontology Generation [J]. Journal of Information Science, 2002, 28(2):123-136.

[3] Turney P D. Learning to Extract Key Phrases from Text[R]. National Research Council, Canada, NRC Technical Report ERB21057, 1999.

[4] Witten I H, Paynter G W, Frank E,et al. KEA: Practical Automatic Keyphrase Extraction[C]. In: Proceedings of the 4th ACM Conference on Digital Libraries, Berkeley, California, US.1999: 254-256.

[5] 姜韶华, 党延忠. 基于长度递减与串频统计的文本切分算法[J]. 情报学报,2006, 25(1): 74-79.

[6] 刘桃, 刘秉权, 徐志明,等. 领域术语自动抽取及其在文本分类中的应用[J]. 电子学报,2007, 35(2): 328-332.

[7] 何婷婷, 张小鹏. 特定领域本体自动构造方法[J]. 计算机工程,2007, 33(22): 235-237.

[8] 王昊,邓三鸿. HMM和CRFs在信息抽取应用中的比较研究[J]. 现代图书情报技术,2007(12): 57-63.

[9] 刘豹,张桂平,蔡东风. 基于统计和规则相结合的科技术语自动抽取研究[J]. 计算机工程与应用, 2008, 44(23): 147-150.

[10] 岑咏华, 韩哲, 季培培. 基于隐马尔科夫模型的中文术语识别研究[J]. 现代图书情报技术,2008(12):54-58.

[11] 温春, 王晓斌, 石昭祥. 中文领域本体学习中术语的自动抽取[J]. 计算机应用研究,2009,27(7): 2652-2655.

[12] 高文利. 基于本体的军备情报抽取系统的设计与实现[J]. 现代图书情报技术,2010(1): 83-87.

[13] 周浪,史树敏,冯冲,等. 基于多策略融合的中文术语抽取方法[J]. 情报学报,2010,29(3): 460-467.

[14] 国内外三种专利申请受理状况总累计表[EB/OL]. [2010-12-22].http://www.sipo.gov.cn/sipo2008/ghfzs/zltj/zljb/201101/t20110110_562647.html.

[15] ICTCLAS特色[EB/OL]. [2011-01-10]. http://ictclas.org/ictclas_feature.html.
[1] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[2] 邓诗琦,洪亮. 面向智能应用的领域本体构建研究*——以反电话诈骗领域为例[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[3] 高广尚. 用户画像构建方法研究综述*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[4] 王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[5] 何有世,何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[6] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[7] 庞贝贝,苟娟琼,穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[8] 冯国明,张晓冬,刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[9] 丁晟春,刘梦露,傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.
[10] 倪维健,孙浩浩,刘彤,曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[11] 殷聪,张李义. 基于TF-IDF的情境后过滤推荐算法研究*——以餐饮业O2O为例[J]. 数据分析与知识发现, 2018, 2(11): 28-36.
[12] 涂海丽,唐晓波. 基于标签的商品推荐模型研究*[J]. 数据分析与知识发现, 2017, 1(9): 28-39.
[13] 李昌兵,庞崇鹏,李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[14] 陈二静,姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
[15] 白如江,冷伏海,廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn