Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (12): 57-63     https://doi.org/10.11925/infotech.1003-3513.2007.12.12
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
HMM和CRFs在信息抽取应用中的比较研究
王昊 邓三鸿
(南京大学信息管理系 南京 210093)
Comparative Study on HMM and CRFs Applying in Information Extraction
Wang Hao  Deng Sanhong
(Department of Information Management, Nanjing University,Nanjing 210093,China)
全文: PDF (931 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列标注或对象分类问题。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王昊
邓三鸿
关键词 HMMCRFs信息抽取人名实体抽取角色标注特征    
Abstract

This paper brings forward two models for person-name entity extraction based on the comparison of math theory between HMM and CRFs, one using word role label based HMM and the other using character role label based CRFs, then validates and compares the effect of both by open-testing and applying in practice, and thereby proves in practice that CRFs is fitter for sequence labeling and object classifying than HMM.

Key wordsHMM    CRFs    Information extraction    Person-name entity extraction    Role label    Feature
收稿日期: 2007-10-11      出版日期: 2007-12-25
ZTFLH: 

TP311

 
通讯作者: 王昊     E-mail: ywhaowang810710@sina.com
作者简介: 王昊,邓三鸿
引用本文:   
王昊,邓三鸿. HMM和CRFs在信息抽取应用中的比较研究[J]. 现代图书情报技术, 2007, 2(12): 57-63.
Wang Hao,Deng Sanhong. Comparative Study on HMM and CRFs Applying in Information Extraction. New Technology of Library and Information Service, 2007, 2(12): 57-63.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.12.12      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I12/57

[1] 傅爱平. 计算语言学和自然语言信息处理研究和应用综述[EB/OL].[2007-10-01]. http://ling.cass.cn/yingyong/courses/nlpbase.htm
[2] 王昊. 基于层次模式匹配的命名实体识别模型[J]. 现代图书情报技术, 2007(5):62-68
[3] Zhou G D, Su J. Named Entity Recognition Using an HMM-based Chunk Tagger[C]. In:Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, PA., USA, 2002:473-480
[4] Settles B. Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[C]. In:Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine  and its Application(NLPBA). Geneva,Switzerland, 2004:103-107
[5] 詹卫东. 词汇分析(二)——从词串到词性标记串[EB/OL]. [2007-10-01]. http://ccl.pku.edu.cn/ doubtfire/course/computational linguistics/contents/Chapter_07_2_pdf_format.pdf.
[6] 钱晶, 张杰, 张涛. 基于最大熵的汉语人名地名识别方法研究[J]. 小型微型计算机系统, 2006, 27(9):1761-1765
[7] 向晓雯. 基于条件随机场的中文命名实体识别[D].厦门:厦门大学,2006.
[8] laputa. 最大熵模型与自然语言处理[EB/OL]. [2007-10-01]. http://www.cs.caltech.edu/~weixl/research/read/summary/MaxEnt2.ppt.
[9] 黄昌宁, 赵海. 由字构词——中文分词新方法[C]. 中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议,2006
[10] 郭家清, 蔡东风, 王智超,等.一种基于条件随机场的人名识别[J]. 通讯与计算机,2007,4(2):22-25
[11] CRF++-0.49[CP/OL].[2007-10-01]. http://sourceforge.net

[1] 李纲, 管为栋, 马亚雪, 毛进. 学术论文的社交媒体可见性预测研究*[J]. 数据分析与知识发现, 2020, 4(8): 63-74.
[2] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[3] 李军莲,吴英杰,邓盼盼,冷伏海. 基于特征融合的引文失范数据自动处理策略研究*[J]. 数据分析与知识发现, 2020, 4(5): 38-45.
[4] 钟丽珍,马敏书,周长锋. 考虑航线特征的机票价格预测方法研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 192-199.
[5] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[6] 马娜,张智雄,吴朋民. 基于特征融合的术语型引用对象自动识别方法研究*[J]. 数据分析与知识发现, 2020, 4(1): 89-98.
[7] 聂卉,何欢. 引入词向量的隐性特征识别研究*[J]. 数据分析与知识发现, 2020, 4(1): 99-110.
[8] 吴佳芬,马费成. 产品虚假评论文本识别方法研究述评 *[J]. 数据分析与知识发现, 2019, 3(9): 1-15.
[9] 黄漫宇,云琪,彭虎锋,窦雪萌. 基于主题挖掘的超额募资农产品众筹项目文本特征研究 *——以众筹网为例[J]. 数据分析与知识发现, 2019, 3(9): 124-134.
[10] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[11] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[12] 程勇,徐德宽,吕学强. 基于多元特征的文本阅读难度自动分级研究 *[J]. 数据分析与知识发现, 2019, 3(7): 103-112.
[13] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[14] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[15] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn