Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (10): 29-33    DOI: 10.11925/infotech.1003-3513.2011.10.06
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于条件随机场模型的复杂时间信息抽取研究
逯万辉1,2, 马建霞1
1. 中国科学院国家科学图书馆兰州分馆 兰州 730000;
2. 中国科学院研究生院 北京 100049
Research on Complex Time Information Extraction Based on CRF Model
Lu Wanhui1,2, Ma Jianxia1
1. Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China;
2. Graduate University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF(520 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对网络信息的时序性和多态性,提出基于条件随机场模型的复杂时间信息抽取研究模型,并通过实验验证该模型的可行性,选取词特征和词-词性特征进行对比研究,结果表明,加入词性特征后召回率有明显提高,而准确率提升不明显,并对这种现象进行分析。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 复杂时间信息抽取条件随机场特征选择    
Abstract:Because of the characteristic of time-serial and polymorphism of the network information, this paper presents a model of extracting the complex time information based on Conditional Random Fields(CRF), and verifies the feasibility of this model through an experiment, compares the results through choosing the features of words (contexts) and word-POS. The experiment shows that the result will be much improved if adding the POS feature.
Key wordsComplex time information extraction    CRF    Feature selection
收稿日期: 2011-08-12     
: 

TP391.1

 
基金资助:

本文系中国科学院西部之光联合学者项目“基于计算情报方法的甘肃省战略新兴产业竞争发展研究”的研究成果之一。

引用本文:   
逯万辉, 马建霞. 基于条件随机场模型的复杂时间信息抽取研究[J]. 现代图书情报技术, 2011, 27(10): 29-33.
Lu Wanhui, Ma Jianxia. Research on Complex Time Information Extraction Based on CRF Model. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2011.10.06.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.10.06
[1] 贺瑞芳.时序多文本文摘相关技术研究 .哈尔滨:哈尔滨工业大学,2009.

[2] 赵国荣,杨尔弘.事件类时间短语识别 .见: 全国第八届计算语言学联合学术会议, 2005:335-340.

[3] Chinchor N,Brown E, Ferro L, et al.1999 Named Entity Recognition Task Definition Version1.4.ftp://jaguar.ncsl.nist.gov/ace/phase1/ne99_taskdef_v1_4.pdf.

[4] 车万翔,刘挺,李生.实体关系的自动抽取[J]. 中文信息学报, 2005,19(2):1-6.

[5] Past TAC(Text Analysis Conference)Data . .http://www.nist.gov/tac/data/.

[6] Stevenson S, Merlo P.Automatic Verb Classification Using Distributions of Grammatical Features .In:Proceedings of the 9th Conference on European Chapter of the Association for Computational Linguistics.1999:45-52.

[7] 徐永东,徐志明,王晓龙,等. 中文文本时间信息获取及语义计 算[J]. 哈尔滨工业大学学报, 2007,39(3):438-442.

[8] 赵国荣.中文新闻语料中的时间短语识别方法研究 .太原:山西大学,2006.

[9] 贾自艳.Web信息智能获取若干关键问题研究 .北京:中国科学院研究生院,2004.

[10] 王昀,苑春法.基于转换的时间-事件关系映射[J]. 中文信息学报, 2004,18(4):23-30.

[11] Banko M, Cafarella M J, Soderland S, et al. Open Information Extraction from the Web . In:Proceedings of IJCAI. 2007:2670-2676.

[12] 语言技术平台.http://ir.hit.edu.cn/demo/ltp/.

[13] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data .In:Proceedings of the 18th International Conference on Machine Learning. 2001.

[14] 基于CRF的中文分词.http://blog.csdn.net/wen718/article/details/5960820.

[15] 谈论三种CRF实现的比较.http://hi.baidu.com/jrckkyy/blog/item/18ec6bf93b231255252df 29e. html.

[16] 丁晟春,刘逶迤,熊霞,等.基于领域本体和语块分析的信息抽取的研究与实现[J]. 情报学报, 2008,27(1):53-58.

[17] 宗萍,施水才,王涛,等.基于条件随机场的英文地理行政实体识别[J]. 现代图书情报技术, 2009(2):51-55.

[18] CRF+ +:Yet Another CRF Toolkit.http://crfpp.sourceforge.net/.

[19] CoNLL-2000评测工具 . .http://www.cnts.ua.ac.be/conll2000/chunking/output.html.
[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[3] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[4] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[5] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[6] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[7] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[8] 操玮,李灿,贺婷婷,朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[9] 李志鹏,李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[10] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[11] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[12] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[13] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[14] 路永和,陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[15] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn