Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 3 Issue (2): 51-55     https://doi.org/10.11925/infotech.1003-3513.2009.02.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于条件随机场的英文地理行政实体识别*
宗萍1,2 施水才1,2 王涛1,2 吕学强1,2
1(北京信息科技大学中文信息处理研究中心  北京 100101)
2(北京拓尔思信息技术股份有限公司  北京 100101)
GPE-entity Recognition Based on Conditional Random Fields
Zong Ping1,2   Shi Shuicai1,2   Wang Tao1,2   Lv Xueqiang1,2
1(Chinese Information Processing Research Center, Beijing Information Science &Technology University, Beijing 100101,China)
2(Beijing TRS Information Technology Co.Ltd., Beijing 100101,China )
全文: PDF (439 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Entities, GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
宗萍
施水才
王涛
吕学强
关键词 ACE评测地理行政实体实体识别条件随机场特征选择    
Abstract

This paper detects Geographical Political Entities (GPE) and it subtypes from the English corpus of Automatic Content Extraction (ACE) evaluation, based on Conditional Random Fields (CRFs). A feature set is extracted from the ACE corpus, and contributions of different feature sets to the detection of GPE entities are evaluated in the experiments. The results show that the feature set extracted in this paper can get higher rate of recall and accuracy.

Key wordsACE    GPE    Entity detection    CRF    Feature selection
收稿日期: 2008-11-18      出版日期: 2009-02-25
: 

TP391

 
基金资助:

* 本文系“863”计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)、国家自然科学基金项目“基于语义分析和统计的自动主题标引研究”(项目编号:60872133)和北京市属高等学校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一。

通讯作者: 宗萍     E-mail: zong.ping@trs.com.cn
作者简介: 宗萍,施水才,王涛,吕学强
引用本文:   
宗萍,施水才,王涛,吕学强. 基于条件随机场的英文地理行政实体识别*[J]. 现代图书情报技术, 2009, 3(2): 51-55.
Zong Ping,Shi Shuicai,Wang Tao,Lv Xueqiang. GPE-entity Recognition Based on Conditional Random Fields. New Technology of Library and Information Service, 2009, 3(2): 51-55.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.02.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V3/I2/51

[1] Linguistic Data Consortium.ACE(Automatic Content Extraction) English Annotation Guidelines for Entities Version 6.1[EB/OL].[2008-03-29].http://projects.ldc.upenn.edu/ace.
[2] ZHOU GD, SU J. Named Entity Recognition Using an HMMbased Chunk Tagger[C]. In:  Proceedings of the 40th Annual Meeting of the Association for Computation Linguistics, Philadelphia. USA:Association for Computational Linguistics,2002:473-480.
[3] Bender O, Ney H. Maximum Entropy Models for Named Entity Recognition [C]. In: Proceedings of the Conference on Computational Natural Language Learning,Edmonton,Canada. USA:Association for Computational Linguistics,2003:148-151.
[4] Lafferty J,McCallum A,Pereira F.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Seqquence Data[J].The Journal of Manchine Learning Research,2001, ICML01:282-289.
[5] Hacioglu K,Douglas B,Chen Y. Detection of Entity Mentions Occurring in English and Chinese Text[C].In:Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing,Cannada.USA:Association for Computational Linguistics,2005(10): 379-386.
[6] The ACE 2008 Evaluation Plan.Assessment of Detection and Recognition of Entities and Relations Within and Across Documents[EB/OL].[2008-05-07].http://www.nist.gov/speech/tests/ace/ace08/doc/.
[7] Sutton C,McCallum A,Rohanimanesh K.Dynamic Conditional Random Fields:Factorized Probabilistic Models for Labeling and Segmenting Sequence Data[J].The Journal of Machine Learning Research,2007,8(3):693-723.
[8] 廖先桃.CRF理论、工具包的使用及在NE上的应用[R/OL].[2008-04-02].http://ir.hit.edu.cn/phpwebsite/index.php?module=documents&JAS_DocumentManager_op=downloadFile &JAS_File_id=215.
[9] 张海雷,曹菲菲,陈文亮,等.基于多层次特征集成的中文实体指代识别[J],中文信息学报,2007,21(5):126-130.
[10] 向晓雯.基于条件随机场的中文命名实体识别[D],厦门:厦门大学,2006.
[11] Florian R,Hassan H,Jing H,et al.Factorizing Complex Models: A Case Study in Mention Detection[J].Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. 2006(9):473-480.
[12] 郭家清.基于条件随机场的命名实体识别研究[D],沈阳:沈阳航空工业学院,2007.

[1] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[2] 沈科杰, 黄焕婷, 化柏林. 基于公开履历数据的人物知识图谱构建*[J]. 数据分析与知识发现, 2021, 5(7): 81-90.
[3] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[4] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[5] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[6] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[7] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[8] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[9] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[10] 刘浏,秦天允,王东波. 非物质文化遗产传统音乐术语自动抽取*[J]. 数据分析与知识发现, 2020, 4(12): 68-75.
[11] 刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东. 基于BiLSTM-CRF中文临床文本中受保护的健康信息识别*[J]. 数据分析与知识发现, 2020, 4(10): 124-133.
[12] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[13] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[14] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[15] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn