Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (1): 72-78    DOI: 10.11925/infotech.1003-3513.2014.01.11
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
用户查询日志中的中文机构名识别*
关晓炟1, 吕学强1, 李卓1, 郑略省1, 2
1北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101; 2北京大学计算语言学研究所 北京 100871
Chinese Organization Name Recognition in User Query Log
Guan Xiaoda1, Lv Xueqiang1, Li Zhuo1, Zheng Luexing1, 2
1Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China; 2Institute of Computational Linguistics,Peking University,Beijing 100871,China
全文: PDF(458 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关晓炟
吕学强
李卓
郑略省
关键词 用户查询日志中文机构名语料构建粘合度条件随机场    
Abstract:[Objective] To solve the problems of query log annotated data shortage and information asymmetry in user query log organization name recognition. [Methods] The paper proposes an automatic method to create training data,which abates the insufficient of user query log annotated data. The authors cite the adhesion features and constructed CRF model to recognize organization names by integrating context information. [Results] Experiments on Sogou user query log show that precision rate can reach 72.80%,recall rate can reach 86.73% and F-measure can reach 79.16%. The method improves F-measure by 30% comparing with the traditional organization name recognition method. [Limitations] The model error using auto-created training set will be greater than standard annotated user query log data.The scale of organization name set will affect the completeness of the model’s context knowledge. [Conclusions] Experiment results demonstrate that the method is effective.
Key wordsUser query log    Chinese organization name    Corpus construction    Adhesion feature    CRF
收稿日期: 2014-02-14     
:  TP391  
基金资助:本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)和北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)的研究成果之一。
通讯作者: 通讯作者 关晓炟 E-mail:darkslayer27@126.com   
作者简介: 作者贡献声明:吕学强:提出研究命题;关晓炟:提出研究思路、论文最终版本修订;关晓炟,郑略省:设计实验方案;吕学强,李卓:提供数据;李卓,郑略省:采集、分析数据;关晓炟,吕学强,李卓:论文起草。
引用本文:   
关晓炟,吕学强,李卓,郑略省,. 用户查询日志中的中文机构名识别*[J]. 现代图书情报技术, 2014, 30(1): 72-78.
Guan Xiaoda,Lv Xueqiang,Li Zhuo,Zheng Luexing,. Chinese Organization Name Recognition in User Query Log. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.01.11.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.01.11
[1] 沈嘉懿,李芳,徐飞玉,等.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21.(Shen Jiayi,Li Fang,Xu Feiyu,et al. Recognition of Chinese Organization Names and Abbreviations[J]. Journal of Chinese Information Processing,2007,21(6):17-21.)
[2]张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32.(Zhang Xiaoheng,Wang Lingling. Identification and Analysis of Chinese Organization and Institution Names[J]. Journal of Chinese Information Processing,1997,11(4):21-32.)
[3]周昆.基于规则的命名实体识别研究[D].合肥:合肥工业大学,2010.(Zhou Kun. Research on Named Entity Recognition Based on Rules[D]. Hefei:Hefei University of Technology,2010.)
[4]俞鸿魁,张华平,刘群.基于角色标注的中文机构名识别[C].见:第20届东方语言计算机处理国际会议论文集,沈阳,中国.2003:79-87.(Yu Hongkui,Zhang Huaping,Liu Qun. Recognition of Chinese Organization Name Based on Role Tagging[C]. In:Proceedings of the 20th International Conference on Computer Processing of Oriental Languages,Shenyang,China.2003:79-87.)
[5]周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809.(Zhou Junsheng,Dai Xinyu,Yin Cunyan,et al. Automatic Recognition of Chinese Organization Name Based on Cascaded Conditional Random Fields[J]. Acta Electronica Sinica,2006,34(5):804-809.)
[6]黄德根,李泽中,万如.基于SVM和CRF的双层模型中文机构名识别[J].大连理工大学学报,2010,50(5):782-787.(Huang Degen,Li Zezhong,Wan Ru. Chinese Organization Name Recognition Using Cascaded Model Based on SVM and CRF[J]. Journal of Dalian University of Technology,2010,50(5):782-787.)
[7]金朝,蒋宗礼.中文机构名的识别讨论[C].见:高等职业教育电子信息类专业学术暨教学研讨会论文集.2011.(Jin Zhao,Jiang Zongli. Discussion on Recognition of Chinese Organization Name[C]. In:Proceedings of 2011 Academic and Teaching Seminar on Electronic Information Sciences of Higher Vocational Education. 2011.)
[8]冯丽萍,焦莉娟.结合多特征的支持向量机中文组织机构名识别模型[J].现代计算机,2010(7):24-27.( Feng Liping,Jiao Lijuan. Fusion of Multiple Features for SVM Chinese Organization Names Reorganization Model[J]. Modern Com- puter,2010(7):24-27.)
[9]胡文博,都云程,吕学强,等.基于多层条件随机场的中文命名实体识别[J].计算机工程与应用,2009,45(1):163-165,227.(Hu Wenbo,Du Yuncheng,Lv Xueqiang,et al. Study on Chinese Named Entity Recognition Based on Cascaded Conditional Random Fields[J]. Computer Engineering and Applications,2009,45(1):163-165,227.)
[10]付春元.汉语嵌套命名实体识别方法研究[D].哈尔滨:黑龙江大学,2011.(Fu ChunYuan. Research on Chinese Nested Named Entity Recognition Method[D]. Harbin:Heilongjiang University,2011.)
[11]蔡月红,朱倩,程显毅.基于Tri-training半监督学习的中文组织机构名识别[J].计算机应用研究,2010,27(1):193-195.(Cai Yuehong,Zhu Qian,Cheng Xianyi. Chinese Organization Names Recognition with Tri-training Learning[J]. Application Research of Computers,2010,27(1):193-195.)
[12]邱莎,王付艳,申浩如,等.基于含边界词性特征的中文命名实体识别[J]. 计算机工程,2012,38(13):128-130.(Qiu Sha,Wang Fuyan,Shen Haoru,et al. Chinese Named Entity Recognition Based on Part of Speech Feature with Edges[J]. Computer Engineering,2013,38(13):128-130.)
[13]杨晓东,晏立,尤慧丽.CCRF与规则相结合的中文机构名识别[J]. 计算机工程,2011,37(8):169-171,174.(Yang Xiaodong,Yan Li,You Huili. Chinese Organization Names Recognition Combined with CCRF and Rules[J]. Computer Engineering,2011,37(8):169-171,174.)
[14]鞠久朋,张伟伟,宁建军,等.CRF与规则相结合的地理空间命名实体识别[J]. 计算机工程,2011,37(7):210-212,215.(Ju Jiupeng,Zhang Weiwei,Ning Jianjun,et al. Geospatial Named Entities Recognition Using Combination of CRF and Rules[J]. Computer Engineering,2011,37(7):210-212,215.)
[15]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In:Proceedings of the 18th International Conference on Machine Learning. San Francisco:Morgan Kaufmann Publishers Inc.,2001:282-289.
[16]Sutton C,McCallum A,Rohanimanesh K. Dynamic Con- ditional Random Fields:Factorized Probabilistic Models for Labeling and Segmenting Sequence Data[J]. The Journal of Machine Learning Research,2007,8:693-723.
[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[3] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[4] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[5] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[6] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[7] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[8] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[9] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[10] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[11] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[12] 曾镇, 吕学强, 李卓. 搜索日志中中文人名的自动识别[J]. 现代图书情报技术, 2014, 30(12): 71-77.
[13] 石翠, 王杨, 杨彬, 姚晔. 面向中文专利文献的单层并列结构识别[J]. 现代图书情报技术, 2014, 30(10): 76-83.
[14] 汪润,何琳,王东波,黄水清,范远标. 面向文本挖掘的植物生长发育实体识别研究*[J]. 现代图书情报技术, 2014, 30(1): 24-27.
[15] 王昊, 邹杰利, 邓三鸿. 面向中文图书的自动标引模型构建及实验分析[J]. 现代图书情报技术, 2013, 29(7/8): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn