Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (12): 71-77    DOI: 10.11925/infotech.1003-3513.2014.12.09
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
搜索日志中中文人名的自动识别
曾镇, 吕学强, 李卓
北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
The Automatic Identification of Chinese Names in Query Logs
Zeng Zhen, Lv Xueqiang, Li Zhuo
Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF(527 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]人名在搜索日志中大量存在, 搜索日志中人名识别研究有助于提高搜索引擎的检索效果.[方法]提出一种搜索日志中识别中文人名的方法, 首先分析日志中人名的内部组成结构以及外部上下文信息, 提取7个特征, 选用合适的特征模板, 应用条件随机场模型初步识别人名.然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律, 设计贝叶斯条件概率计算公式筛选更多的人名.[结果]在搜狗日志中进行实验, 开放测试结果准确率达到95%, F值达到91%.[局限]需要人工标注一定规模的训练语料.[结论]实验结果表明, 该方法对于搜索日志中的人名识别是行之有效的.

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
曾镇
李卓
吕学强
关键词 搜索日志人名识别特征模板条件随机场条件概率    
Abstract

[Objective] Many names exist in query logs, and the name recognition can improve the performance of the search engine. [Methods] This paper presents a method that identifies the names in query logs. Basing on the internal structure characters of the name and its context information, extract seven features, choose suitable feature template, and apply the conditional random field model to preliminary identify of the person's name. According to the characteristics of the query string that CRFs cannot mark with the names, design Bayesian conditional probability formula to select more names. [Results] Experiments are done in Sogou Web query logs, the precision of name recognition reaches 95%, and the F-measure of the machine learning method is 91%. [Limitations] A certain amount of manual annotation training corpus is required. [Conclusions] The results validate the effectiveness of this name recognition method, and prove that this method has positive impact on name recognition.

Key wordsQuery log    Name recognition    Feature template    Conditional Random Fields    Conditional probability
收稿日期: 2014-05-26     
:  TP391  
基金资助:

本文系国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号: 61271304)、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)和北京市属高等学校创新团队建设与教师职业发展计划项目(项目编号: IDHT20130519)的研究成果之一.

通讯作者: 曾镇 E-mail: 928588695@qq.com     E-mail: 928588695@qq.com
作者简介: 作者贡献声明: 吕学强: 提出研究命题; 曾镇: 提出研究思路, 采集和标注数据, 完成实验, 起草、撰写论文; 吕学强, 李卓: 最终版本修订.
引用本文:   
曾镇, 吕学强, 李卓. 搜索日志中中文人名的自动识别[J]. 现代图书情报技术, 2014, 30(12): 71-77.
Zeng Zhen, Lv Xueqiang, Li Zhuo. The Automatic Identification of Chinese Names in Query Logs. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.12.09.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.12.09

[1] 赵龙, 江荣安. 基于Hive的海量搜索日志分析系统研究[J]. 计算机应用研究, 2013, 30(11): 3343-3345. (Zhao Long, Jiang Rong'an. Research of Massive Searching Logs Analysis System Based on Hive [J]. Application Research of Computers, 2013, 30(11): 3343-3345.)
[2] 徐骥超. 网络日志挖掘及其在查询理解中的应用研究[D]. 北京:北方工业大学, 2013. (Xu Jichao. Web Log Mining and Its Application in the Query Understanding [D]. Beijing: North China University of Technology, 2013.)
[3] Downey D, Broadhead M, Etzioni O. Locating Complex Named Entities in Web Text [C]. In: Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI'07). San Francisco: Morgan Kaufmann Publishers Inc., 2007: 2733-2739.
[4] 岑荣伟, 刘奕群, 张敏, 等. 基于日志挖掘的搜索引擎用户行为分析[J]. 中文信息学报, 2010, 24(3): 49-54. (Cen Rongwei, Liu Yiqun, Zhang Min, et al. Search Engine User Behavior Analysis Based on Log Mining [J]. Journal of Chinese Information Processing, 2010, 24(3): 49-54.)
[5] 黄德根, 马玉霞, 杨元生. 基于互信息的中文姓名识别方法[J]. 大连理工大学学报, 2004, 44(5): 744-748. (Huang Degen, Ma Yuxia, Yang Yuansheng. Chinese Names Identification Based on Mutual Information [J]. Journal of Dalian University of Technology, 2004, 44(5): 744-748.)
[6] 向晓雯, 史晓东, 曾华琳. 一个统计与规则相结合的中文命名实体识别系统[J]. 计算机应用, 2005, 25(10): 2404-2406. (Xiang Xiaowen, Shi Xiaodong, Zeng Hualin. Chinese Named Entity Recognition System Using Statistics- based and Rules-based Method [J]. Journal of Computer Applications, 2005, 25(10): 2404-2406.)
[7] 张华平, 刘群. 基于角色标注的中国人名自动识别研究[J].计算机学报,2004, 27(1): 85-91. (Zhang Huaping, Liu Qun. Automatic Recognition of Chinese Personal Name Based on Role Tagging [J]. Chinese Journal of Computers, 2004, 27(1): 85-91.)
[8] 伍大勇. 搜索引擎中命名实体查询处理相关技术研究[D]. 哈尔滨:哈尔滨工业大学, 2012. (Wu Dayong. Relevant Techniques of Named Entity Query Processing for Search Engine [D]. Harbin: Harbin Institute of Technology, 2012.)
[9] 伍大勇, 刘挺. 基于随机游走模型的查询日志中命名实体挖掘[J]. 智能计算机与应用, 2012, 2(4): 22-26, 30. (Wu Dayong, Liu Ting. Mining Named Entities in Query Log Using Random Walk Model [J]. Intelligent Computer and Applications, 2012, 2(4): 22-26, 30.)
[10] Pasca M. Weakly-supervised Discovery of Named Entities Using Web Search Queries [C]. In: Proceedings of the 16th ACM Conference on Information and Knowledge Management (CIKM'07). New York: ACM, 2007: 683-690.
[11] 曹雷, 郭嘉丰, 白露, 等. 基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报, 2012,26(5): 26-32. (Cao Lei, Guo Jiafeng, Bai Lu, et al. Named Entity Mining from Query Log through Semi-supervised Topic Modeling [J]. Journal of Chinese Information Processing, 2012, 26(5): 26-32.)
[12] 张磊, 王斌, 靖红芳, 等. 中文网页搜索日志中的特殊命名实体挖掘[J]. 哈尔滨工业大学学报, 2011, 43(5): 119-122. (Zhang Lei, Wang Bin, Jing Hongfang, et al. Mining Special Name Entities from Chinese Web Search Query Logs [J]. Journal of Harbin Institute of Technology, 2011, 43(5): 119-122.)
[13] Wen B, Xiao S, Luo Y, et al. Unsupervised Chinese Personal Name Identification Based Search Session [J]. Journal of Computational Information Systems, 2013, 9(6): 2201-2208.
[14] 维基百科. 常见姓氏列表 [EB/OL]. [2012-07-02]. http://zh. wikipedia.org/wiki/常见姓氏列表. (Wikipedia. Common Surnames List [EB/OL]. [2012-07-02]. http://zh.wikipedia.org/ wiki/常见姓氏列表.)

[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[3] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[4] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[5] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[6] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[7] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[8] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[9] 任育伟, 吕学强, 李卓, 徐丽萍. 搜索日志中命名实体识别[J]. 现代图书情报技术, 2015, 31(6): 49-56.
[10] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[11] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[12] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[13] 李雪伟, 吕学强, 刘克会. 扩展搜索日志上下文的新词识别[J]. 现代图书情报技术, 2014, 30(11): 59-65.
[14] 石翠, 王杨, 杨彬, 姚晔. 面向中文专利文献的单层并列结构识别[J]. 现代图书情报技术, 2014, 30(10): 76-83.
[15] 汪润,何琳,王东波,黄水清,范远标. 面向文本挖掘的植物生长发育实体识别研究*[J]. 现代图书情报技术, 2014, 30(1): 24-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn