Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (10): 59-64     https://doi.org/10.11925/infotech.1003-3513.2010.10.10
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于条件随机域模型的事实信息抽取方法应用
武帅
中国国防科技信息中心 北京 100142
Application on Information Extraction from Factual Information Based on Conditional Random Fields Method
Wu Shuai
China Defense Science & Technology Information Center, Beijing 100142, China
全文: PDF (1143 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

探讨一种基于条件随机域的非结构化文本事实信息抽取方法的实际应用,分析模型的参数估计和特征选择方法。在进行信息抽取时,先利用分隔符、特定标识符等格式信息对文本进行分块,在分块的基础上使用条件随机域模型进行指定块的抽取。该方法应用于世界武器装备知识库系统的事实信息抽取模块,经测试,具有良好的准确率和召回率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
武帅
关键词 信息抽取条件随机域参数估计特征选择    
Abstract

A method based on the Conditional Random Fields (CRFs) is proposed to extract the information of unstructured factual information text, and the method of parameter estimation and feature selection is also anlyzed. During information extraction, the author blocks the text firstly with the help of format information such as separator and special identifier, and then extracts the designated block with Conditional Random Fields. The proposed method is applied in Global Weapon Knowledge Base System (GWKBS), and experiment results show that it has a better precision and recall performance.

Key wordsInformation    extraction    Conditional    random    fields    Parameter    estimation    Feature    selection
收稿日期: 2010-03-11      出版日期: 2011-01-04
: 

TP311

 
基金资助:

本文系2010“图书馆信息技术的应用、服务和创新”学术研讨会论文。

引用本文:   
武帅. 基于条件随机域模型的事实信息抽取方法应用[J]. 现代图书情报技术, 2010, 26(10): 59-64.
Wu Shuai. Application on Information Extraction from Factual Information Based on Conditional Random Fields Method. New Technology of Library and Information Service, 2010, 26(10): 59-64.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.10.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I10/59


[1] 李保利,陈玉忠,俞士汶.信息抽取研究综述
[J]. 计算机工程与应用 ,2003,39(10):1-5.

[2] Seymore K, McCallum A, Rosenfeld R. Learning Hidden Markov Model Structure for Information Extraction . In: Proceedings of the AAAI’99 Workshop on Machine Learning for Information Extraction. 1999:37-42.

[3] 林亚平,刘云中,周顺先,等. 基于最大熵的隐马尔可夫模型文本信息抽取
[J]. 电子学报 , 2005,33 (2):236-240.

[4] 刘云中,林亚平,陈治平. 基于隐马尔可夫模型的文本信息抽取
[J]. 系统仿真学报 , 2004,16(3):507-510.

[5] 张玲,黄铁军,高文. 基于隐马尔可夫模型的引文信息提取
[J]. 计算机工程 , 2003,29(20):33-34,54.

[6] Han H, Giles C,Manavoglu E, et al. Automatic Document Metadata Extraction Using Support Vector Machines . In: Proceedings of Joint Conference on Digital Libraries. 2003:37-48.

[7] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data . In: Proceedings of the 18th International Conference on Machine Learning. 2001:282-289.

[8] Byrd R H, Nocedal J, Schnabel R B. Representations of Quasi-Newton Matrices and Their Use in Limited Memory Methods
[J]. Mathematical Programming, 1994 (2):129-156.

[9] Darroch J N, Ratcliff D. Generalized Iterative Scaling for Log-linear Models
[J]. Annals of Mathematical Statistics,1972,43(5):1470-1480.

[10] Della Pietra S, Della Pietra V, Lafferty J. Inducing Features of Random Fields
[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(4):380-393.

[11] Peng F, McCallum A. Accurate Information Extraction from Research Papers Using Conditional Random Fields
[J]. Information Processing & Management,2006,42(4):963-979.

[12] Sha F, Pereira F. Shallow Parsing with Conditional Random Fields . In: Proceedings of Human Language Technology NAACL. 2003:134-141.

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[3] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[4] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[5] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[6] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[7] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[9] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[10] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[11] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[12] 操玮, 李灿, 贺婷婷, 朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[13] 李慧, 胡云凤. 基于动态情感主题模型的在线评论分析*[J]. 数据分析与知识发现, 2017, 1(9): 74-82.
[14] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[15] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn