扩展搜索日志上下文的新词识别

引用本文

李雪伟, 吕学强, 刘克会. 扩展搜索日志上下文的新词识别 . 现代图书情报技术, 30(11): 59-65
Li Xuewei, Lv Xueqiang, Liu Kehui. Chinese New Words Identification from Query Log by Extending the Context. New Technology of Library and Information Service, 30(11): 59-65 复制到剪切板

Permissions

《现代图书情报技术》编辑部

扩展搜索日志上下文的新词识别

李雪伟¹, 吕学强¹, 刘克会^2,³

¹北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101

²北京理工大学管理与经济学院北京 100081

³北京城市系统工程研究中心北京 100035

通讯作者:李雪伟:E-mail:li_xuewei163@163.com

作者贡献声明：

吕学强:提出研究命题;

李雪伟:提出研究思路, 设计实验方案和完成实验, 起草、撰写论文;

吕学强, 刘克会:提供数据, 修订论文。

基金:*本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)和北京市属高等学校创新团队建设与教师职业发展计划项目(项目编号:IDHT20130519)的研究成果之一

摘要

【目的】大规模搜集、整理新词扩充现有词典, 提高汉语分词准确率, 推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点, 提出扩展搜索日志上下文的新词识别方法。首先, 通过分析查询串的特点获取种子词集合, 利用种子词集在搜索日志中进行全文扩展, 提取候选新词。其次, 根据新词的时间属性发现新词串, 最后基于词语的边界信息, 提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验, P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。

关键词: 搜索日志; 全文扩展; 新词; 边界; 改进左右熵

中图分类号:TP391

Chinese New Words Identification from Query Log by Extending the Context

Li Xuewei¹, Lv Xueqiang¹, Liu Kehui^2,³

¹Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China

²School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China

³Beijing Research Center of Urban System Engineering, Beijing 100035, China

Abstract

[Objective] Collect and collate new words to expand the current dictionary, which can improve the accuracy of Chinese segment and promote the development of Chinese information processing.[Methods] A new word recognition method of context extension is proposed depending on features of query strings and new words. Firstly, get the seed collection based on features of query strings and obtain candidate new words through full extension. Secondly, get candidate new words according to the words time span. Finally, filter candidates by the use of improved left-right entropy according to the boundary information of words.[Results] Experiments on Sogou log show that precision rate of P@100 can reach 89.60%.[Limitations] The scale of contrast strings affects the accuracy of new words, to a certain extent.[Conclusions] Experiment results demonstrate that the method is suitable for the search logs of which context information to identify new words is missed.

Keyword: Search log; Full extension; New words; Boundary; Improved left-right entropy

Show Figures

1 引言

当新鲜事件发生时, 人们通常利用搜索引擎来检索, 以获取更多更全面的信息, 以致于搜索日志中存在着大量的新词。但由于词典修订存在一定的延迟, 新词往往不能及时被词典收录, 严重影响了中文分词的发展, 而中文分词是中文信息处理的基础, 这给中文信息处理带来了挑战。

本文通过分析搜索引擎中的用户查询日志, 从中抽取新词, 弥补词典中的新词匮乏问题。针对缺失上下文信息的用户查询日志, 提出扩展搜索日志上下文的新词识别方法。首先, 基于查询串的上下文缺失的特点, 获取种子词集合, 利用种子词集在整个搜索语料范围内进行全文扩展抽取候选新词; 其次, 利用新词的时间属性, 过滤旧词串, 发现新词串; 最后基于词语的边界信息, 提出改进左右熵方法过滤新词串中的垃圾串(不能形成词语的字串), 抽取新词语, 实现搜索日志中新词识别。

2 相关工作

用户查询日志作为囊括大众智慧的海量数据资源, 成为广泛关注的对象。许多研究者^{[1, 2, 3, 4, 5]}均是针对搜索日志中的命名实体和专有名词进行挖掘研究。余慧佳等^[6]利用大规模查询日志对网络搜索引擎用户行为进行研究; Liu等^[7]基于用户的搜索行为, 利用查询日志进行用户查询推荐; 刘奕群等^[8]基于用户行为分析研究搜索引擎的自动性能评价。而在查询日志中进行新词识别工作的研究很少。Zheng等^[9]在用户查询日志中, 提出基于用户行为的协同过滤新词识别方法。但该方法需要维护大量的专家词典, 前期准备工作复杂。

以往对新词识别的研究主要集中在文本领域^{[10, 11, 12, 13, 14, 15]}。与文本领域中的新词识别不同, 用户查询串通常都很简短(一般只有2-3个词), 缺失上下文信息, 因此文本领域中的新词识别技术不能直接有效地应用到查询日志上。这给基于用户查询的新词识别的研究工作提出新的挑战。

本文针对查询日志这种上下文缺失的语料, 提出扩展搜索日志上下文的新词自动识别方法。该方法无需人力劳动, 完全自动实现。

3 扩展搜索日志上下文的新词识别

邹刚等^[11]认为, 新词语就是已有汉字或词语的一种组合, 有两个特征:具有重复出现的规律; 具有时间规律, 即新词语总是在某个时间点之后出现并且流行。

3.1 候选新词提取

对用户查询日志中的查询串进行分类, 可分为以下4类:

通过分析这些查询串, 发现无上下文信息的词语可以作为其他词语的上下文, 如无上下文的查询串“ 新亮剑” , 在“ 新亮剑下载” 中为“ 下载” 的上文, 而在“ 电视剧新亮剑” 为“ 电视剧” 的下文。由于用户查询日志中查询串长度较短, 且汉字数为2或3的查询串均为用户输入的不可再分的词语, 这些查询串均为无上下文信息的词语。本文直接提取这些查询串, 将其作为种子词, 利用种子词继续提取其他查询串中将其作为上文或下文的2或3字的汉字串, 以此类推, 抽取候选新词。例如:利用“ 新亮剑” 可以提取“ 新亮剑下载” 、“ 电视剧新亮剑” 中的“ 下载” 、“ 电视剧” , 此时, 它们成为无上下文信息的词语, 利用它们再次提取将其作为上文或下文的词语。

(1) 种子词发现

本文将汉字数为2或3的查询串作为种子词。由于用户在检索时, 可能会输入“ 新亮剑下载” 这种形式的查询串, 在预处理阶段, 本文将这种查询串分割为两个独立的查询串:“ 新亮剑” 、“ 下载” 。

通过对搜狗查询日志语料的观察及统计, 发现长度为2或3的查询串占全部语料的12.82%, 因此提取汉字数为2或3的查询串, 将其作为全文扩展方法的种子词。

(2) 全文扩展的候选新词提取

利用上文已提取的种子词, 循环迭代扩展获取候选新词。

为方便描述, 定义如下概念:

Update方法:已知查询串集合Q={q₁, q₂, ..., q_j-1, q_j, q_j+1, ..., q_n}, 种子词集合S={s₁, s₂, ..., s_i, ...s_n}, 对于 , , 使得q_j包含s_i, 则令q_j中s_i的上文 , s_i的下文 , 如果 , , 则 , ; 如果且 , 则Q=Q-{q_j}, S=S+ , 。如果q_j不包含s_i, 则Q=Q, S=S。

其中, LEN(q)表示q中含有汉字的数目; w_i表示一个汉字, 。

对查询串集合中的每一条查询串应用Update方法, 以此循环迭代, 直到不再产生新的种子词为止。最后提取查询串集合中的4或5字连续汉字串, 将其与种子词集合合并, 得到候选新词。

如现有查询串集合Q={“ 凰图腾下载” 、“ 国门英雄” 、“ 云轩阁小说下载” }, 种子词集合S={“ 郭美美” 、“ 小说” 、“ 电视剧” }, 对于种子词“ 小说” , 存在查询串“ 云轩阁小说下载” , 包含种子词“ 小说” , 对查询串应用Update方法, 可得新的种子词集合S={“ 郭美美” 、“ 小说” 、“ 电视剧” 、“ 云轩阁” 、“ 下载” }, 新的查询串集合Q={“ 凰图腾下载” 、“ 国门英雄” }。

在对查询串应用Update方法过程中, 应注意种子词使用的顺序:先使用长种子词, 后使用短种子词, 如现有查询串“ 电视新亮剑” 和种子词“ 亮剑” 、“ 新亮剑” , 如果先对查询串使用种子词“ 亮剑” , 则会得到新种子词“ 电视新” , 从而提高了垃圾串的产生率。

3.2 新词提取

提取的候选新词, 其中包含大量非新词和非词语的串, 以下利用新词的特点提取新词。

(1) 基于时间的信息

新词的一个特点为“ 新” , 提取出的词语中没有利用任何有关时间的信息, 其中必包含许多旧词语, 新词发现的目标是过滤旧词语, 得到新词语。

本文利用新词的时间特点识别新词。基本思想为:给定一个时间, 在该时间点之前出现的词语为旧词语, 该时间点之后出现的词语为新词语。具体方法如下:

通过判断该候选新词是否出现在对比词串中, 以此获得新词串。为便于描述, 本文定义在给定时间点之前出现的词串为对比词串。

假设用CompareS表示对比词串集合, 用CandidateS表示候选新词集合, 其中CompareS={q₁, q₂, ..., q_N}, 。定义以下函数判断该候选新词是否为新词串, 函数表示如下:

输出1表示该词是新词串。对于每一个候选新词运用以上函数判断, 即可得到新词串。

(2) 基于词语的边界信息

由于候选新词的提取是由种子词的迭代扩展得到的, 其过程经历了查询串的多次拆分, 拆分过程中可能会将一些固定的词语拆分开, 从而得到拆分字串, 这些拆分字串在候选新词中大量存在, 对这些拆分字串进行分析, 发现它们的上文或下文均为一个或几个固定字。由于字串的左右熵^[16]是从该字串的外部结合度即对上下文环境的依赖度来确定分割界限, 体现了该字串的灵活性。但是左右熵的计算需要用到字串的上下文信息, 而本文在查询日志中提取的候选新词S多缺乏上下文信息, 如表 1所示, 导致普通左右熵方法不适用于搜索日志。据此, 本文提出改进左右熵方法抽取字串中的词语。

表1 候选词串分类

改进左右熵方法的基本思想为将候选词分为两类:一类是有上下文信息的候选词, 一类是缺失上下文信息的候选词, 对其分别用不同的方法计算左右熵值, 计算方法公式如(2)和公式(3)所示。该方法认为缺失相应上下文的候选词, 其缺失的上下文可以为任何内容, 即上下文丰富多样, 所以公式(2)和公式(3)相当于为上下文信息缺失的候选词补充了不同的上文或下文信息, 类似表2中的解决办法。

表2 上下文信息缺乏相应解决办法

字串S的改进左右熵定义为:

(1)

其中, 字串S的改进左熵定义为:

(2)

字串S的改进右熵定义为:

(3)

其中, AL表示S左边出现的所有非空字符, , 且 ; AR表示S右边出现的所有非空字符, , 且 ; 表示字符x出现在字串S左边的概率, 计算公式如公式(4)所示; p(Sz|S)表示字符z出现在字串S右边的概率, 计算公式如公式(5)所示; N(S)表示S在语料中总共出现的频次。

(4)

(5)

4 实验结果及分析

实验数据为2011年12月30日-12月31日两天的搜狗日志^[17], 使用其中的查询串作为实验数据来源。查询串总数为43 545 423条; 独立不重复查询串总数为609 497条。共进行5组实验, 每组实验随机选取50 000条独立不重复查询串, 然后将查询串按照重复次数展开, 获得查询串总数量如表3所示, 在此基础上分别进行新词识别实验。

表3 各组实验查询串数量

对比语料采用搜狗日志2008年6月1日-6月29日共29天的查询日志数据。

4.1 评价方法

由于搜索日志数据量大, 产生的新词量也很大, 且本文研究目的是为了扩充词典, 减少新词检测的人工干预。为了使提取新词的准确率尽可能高, 评价指标主要使用正确率。正确率的计算如下:

(6)

4.2 结果及分析

在提取语料中的种子词阶段, 需要注意搜索用户在输入过程中, 会由于粗心和不确定造成输入错误, 从而导致错误的种子词出现, 为保证新词识别的准确率, 只提取词频数大于3的种子词。

不同的方法对新词的定义不同, 会影响到新词检测的结果, 而且在搜索日志中进行新词识别的很少, 可重现的实验也很少, 本文提出的方法和前人的工作缺乏统一的对比平台。由于NLPIR^[18]即ICTCLAS2013版新增了新词发现模块, 其中采用的新词识别算法为文献^[19]中所用的方法, 为了证明本文方法的有效性, 将其与NLPIR提取的新词作对比, 实验结果如表4所示:

表4 搜索日志中提取的新词准确率

从表4的5组实验结果可以看出, 本文方法优于NLPIR方法, 每组实验结果均有提高。分析实验结果, 发现主要原因有:

(1) NLPIR方法主要是基于上下文信息进行新词识别, 而搜索日志缺失其所需的上下文信息, 从而导致识别效果不好。

(2) NLPIR采用的新词识别算法没有利用新词的时间属性进行提取, 导致大量非新词的存在。

将每组实验结果表示为柱状图, 如图1至图所示:

	Figure Option View Download New Window
	图1 第1组实验结果对比

	Figure Option View Download New Window
	图2 第2组实验结果对比

	Figure Option View Download New Window
	图3 第3组实验结果对比

	Figure Option View Download New Window
	图4 第4组实验结果对比

	Figure Option View Download New Window
	图5 第5组实验结果对比

	Figure Option View Download New Window
	图6 平均正确率对比

从图1至图6可以看出, 使用普通左右熵的本文方法实验结果不稳定, 其中在第1组、第3组、第5组是呈稳定上升趋势, 平均正确率也均比对比实验高, 整体结果好于对比实验NLPIR。说明全文扩展的候选新词提取方法在搜索日志这种上下文缺失语料中是适用的。使用改进左右熵的本文方法实验结果均比前两种方法好, 且呈稳定上升趋势。说明改进左右熵方法适用于搜索日志。对实验结果进行分析发现, 使用普通左右熵方法, 大量的上下文缺失的词语被过滤掉, 如“ 新亮剑” 、“ 蘑菇街” 、“ 张馨予” 、“ 百里挑一” 、“ 怪侠欧阳德” , 致使许多非新词的词语被保留, 从而导致新词的正确率下降。而使用改进的左右熵计算方法可以将这些上下文信息缺失的词语识别出来, 在保证新词正确率的同时提高了识别召回率。

利用本文方法提取的部分新词结果如表5所示:

表5 新词识别结果示例

由表 5中的新词识别结果可以发现:

(1) 识别出的新词类型有:中文人名、外文译名、网站名、娱乐节目名、热点事件、网络流行用语、缩略语等。说明本文方法可以识别各种类型的新词语。

(2) 识别的新词中包括“ 十二五” 、“ 喂奶门” 等热点事件词语, 可以为网络舆情的监控提供一定的参考。

(3) 识别的新词以用户输入的主体词为主, 完全符合搜索用户利用搜索引擎进行检索的特点, 通过这些词语, 可以快速发现搜索用户的兴趣所在, 并为其推荐相关信息。

由此可见, 本文提出的方法对于识别搜索日志中的新词是行之有效的。

5 结语

本文提出了扩展搜索日志上下文的新词识别方法, 根据查询串特点及新词特点, 首先提取种子词, 利用种子词进行全文扩展抽取候选新词; 利用新词的时间特点, 发现新词串; 最后提出改进左右熵方法对非词语进行过滤, 最终得到搜索日志中存在的新词。实验表明, 本文提出的方法在保证较高准确率的前提下大大减少了人力劳动的工作量, 同时可以提取不同类型的新词语, 为相关领域的研究提供了一定的参考。由于对比词串集合不可能将所有的词都收录进去, 因此在新词识别过程中, 存在很多旧词也就是非新词的词语, 为了尽可能地去除这些旧词, 后续工作将进一步扩大对比词串集的规模, 使提取的新词更加准确。

参考文献

View Option

[1]	翟海军, 郭嘉丰, 王小磊, 等. 基于用户查询日志的命名实体挖掘[J]. 中文信息学报, 2010, 24(1): 71-76, 116. Zhai Haijun, Guo Jiafeng, Wang Xiaolei, et al. Mining Named Entities from Query Logs[J]. Journal of Chinese Information Processing, 2010, 24(1): 71-76, 116. [本文引用:1] [CJCR: 1.13]
[2]	张磊, 王斌, 靖红芳, 等. 中文网页搜索日志中的特殊命名实体挖掘[J]. 哈尔滨工业大学学报, 2011, 43(5): 119-122. Zhang Lei, Wang Bin, Jing Hongfang, et al. Mining Special Named Entities from Chinese Web Search Query Logs[J]. Journal of Harbin Institute of Technology, 2011, 43(5): 119-122. [本文引用:1] [CJCR: 0.1571]
[3]	Liu H, Hu X, Zhao J, et al. Identification of Complex Named-Entities in Chinese Queries Using WWW [C]. In: Proceedings of the 5th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD’08), Ji’nan, Shand ong, China. IEEE, 2008: 180-185. [本文引用:1]
[4]	胡学营, 刘慧, 陆汝占. 搜索引擎用户查询中的复杂专有名词识别[J]. 计算机工程与应用, 2008, 44(19): 153-155. Hu Xueying, Liu Hui, Lu Ruzhan. Recognition of Complex Named-entities in User Queries of Search Engine[J]. Computer Engineering and Applications, 2008, 44(19): 153-155. [本文引用:1] [CJCR: 0.457]
[5]	曹雷, 郭嘉丰, 白露, 等. 基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报, 2012, 26(5): 26-32. Cao Lei, Guo Jiafeng, Bai Lu, et al. Named Entity Mining from Query Log through Semi-supervised Topic Modeling[J]. Journal of Chinese Information Processing, 2012, 26(5): 26-32. [本文引用:1] [CJCR: 1.13]
[6]	余慧佳, 刘奕群, 张敏, 等. 基于大规模日志分析的搜索引擎用户行为分析[J]. 中文信息学报, 2007, 21(1): 109-114. Yu Huijia, Liu Yiqun, Zhang Min, et al. Research in Search Engine User Behavior Based on Log Analysis[J]. Journal of Chinese Information Processing, 2007, 21(1): 109-114. [本文引用:1] [CJCR: 1.13]
[7]	Liu Y, Miao J, Zhang M, et al. How do Users Describe Their Information Need: Query Recommendation Based on Snippet Click Model[J]. Expert Systems with Applications, 2011, 38(11): 13847-13856. [本文引用:1] [JCR: 1.854]
[8]	刘奕群, 岑荣伟, 张敏, 等. 基于用户行为分析的搜索引擎自动性能评价[J]. 软件学报, 2007, 19(11): 3023-3032. Liu Yiqun, Cen Rongwei, Zhang Min, et al. Automatic Search Engine Performance Evaluation Based on User Behavior Analysis[J]. Journal of Software, 2007, 19(11): 3023-3032. [本文引用:1] [CJCR: 2.181]
[9]	Zheng Y, Liu Z, Sun M, et al. Incorporating User Behaviors in New Word Detection [C]. In: Proceedings of the 21st International Joint Conference on Artificial Intelligence (IJCAI’09). San Francisco: Morgan Kaufmann Publishers Inc. , 2009: 2101-2106. [本文引用:1]
[10]	郑家恒, 李文花. 基于构词法的网络新词自动识别初探[J]. 山西大学学报: 自然科学版, 2002, 25(2): 115-119. Zheng Jiaheng, Li Wenhua. A Study on Automatic Identification for Internet New Words According to Word-building Rule[J]. Journal of Shanxi University: Natural Science Edition, 2002, 25(2): 115-119. [本文引用:1] [CJCR: 0.443]
[11]	邹刚, 刘洋, 刘群, 等. 面向Internet的中文新词语检测[J]. 中文信息学报, 2004, 18(6): 1-9. Zou Gang, Liu Yang, Liu Qun, et al. Internet-oriented Chinese New Words Detection[J]. Journal of Chinese Information Processing, 2004, 18(6): 1-9. [本文引用:2] [CJCR: 1.13]
[12]	陈飞, 刘奕群, 魏超, 等. 基于条件随机场方法的开放领域新词发现[J]. 软件学报, 2013, 24(5): 1051-1060. Chen Fei, Liu Yiqun, Wei Chao, et al. Open Domain New Word Detection Using Condition Rand om Field Method[J]. Journal of Software, 2013, 24(5): 1051-1060. [本文引用:1] [CJCR: 2.181]
[13]	张海军, 栾静, 李勇, 等. 基于统计学习框架的中文新词检测方法[J]. 计算机科学, 2012, 39(2): 232-235. Zhang Haijun, Luan Jing, Li Yong, et al. Method of New Chinese Word Detection Based on Statistical Learning Framework[J]. Computer Science, 2012, 39(2): 232-235. [本文引用:1] [CJCR: 0.61]
[14]	Wu A, Jiang Z. Statistically-enhanced New Word Identification in a Rule-based Chinese System [C]. In: Proceedings of the 2nd Workshop on Chinese Language Processing: Held in Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, HongKong, China. Stroudsburg: Association for Computational Linguistics, 2000: 46-51. [本文引用:1]
[15]	Li H, Huang C, Gao J, et al. The Use of SVM for Chinese New Word Identification [C]. In: Proceedings of the 1st International Joint Conference on Natural Language Processing, Sanya, Hainan Island , China. Heidelberg: Springer-Verlag Berlin, 2004: 723-732. [本文引用:1]
[16]	周浪, 冯冲, 黄河燕. 一种面向术语抽取的短语过滤技术[J]. 计算机工程与应用, 2009, 45(19): 9-11. Zhou Lang, Feng Chong, Huang Heyan. Phrase Filtering Technology Oriented to Term Extraction[J]. Computer Engineering and Applications, 2009, 45(19): 9-11. [本文引用:1] [CJCR: 0.457]
[17]	搜狗. 用户查询日志[EB/OL]. [2013-07-10]. http: //www. sogou. com/labs/dl/q. html. Sogou. SogouQ [EB/OL]. [2013- 07-10]. http://www.sogou.com/labs/dl/q.html. [本文引用:1]
[18]	NLPIR汉语分词系统[EB/OL]. [2013-07-10]. http: //ictclas. nlpir. org/downloads. NLPIR Chinese Word Segmentation System [EB/OL]. [2013- 07-10]. http://ictclas.nlpir.org/downloads. [本文引用:1]
[19]	黄玉兰, 龚才春, 许洪波, 等. 基于局部性原理的有意义串提取方法[C]. 见: 第四届全国信息检索与内容安全学术会议论文集 (上). 2008. Huang Yulan, Gong Caichun, Xu Hongbo, et al. A Meaningful String Extraction Algorithm Based on Locality [C]. In: Proceedings of the 4th National Conference on Information Retrieval and Content Securit. 2008. [本文引用:1]

2010

0.0

1.13

. 2010, 24(1):71-76,116

Mining Named Entities from Query Logs

针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题.已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘.然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别.该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性.实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法. Abstract： Mining named entities from query logs is an important research field in data mining. Previous work proposed a seed-based framework to mine named entities from query logs by leveraging distribution similarity, which works well only when each named entity only belongs to a signle semantic class. In fact, named entities may often belong to multiple classes. In this paper, we introduce a weakly-supervised topic model to resolve class ambiguity of named entities by leveraging weak supervision from human. The experiment results show that our approach significantly outperforms the previous method.

... 许多研究者^[1,2,3,4,5]均是针对搜索日志中的命名实体和专有名词进行挖掘研究 ...

2011

0.0

0.1571

... 许多研究者^[1,2,3,4,5]均是针对搜索日志中的命名实体和专有名词进行挖掘研究 ...

2008

0.0

... 许多研究者^[1,2,3,4,5]均是针对搜索日志中的命名实体和专有名词进行挖掘研究 ...

2008

0.0

0.457

. 2008, 44(19):153-155

Recognition of Complex Named-entities in User Queries of Search Engine

Department of Computer Science and Engineering，Shanghai Jiaotong University，Shanghai 200240，China

Named-Entity Recognition（NER） is a fundamental task for natural language processing and information retrieval.Literatures are full of person，location and organization names，while complex named-entities as book names and movies names are seldom referred.The authors focus on the recognition of such complex named-entities in query logs of a search engine.The authors roughly segment the queries according to their Web context and use the Web data to train a complex named-entities classifier.The authors use three different classifiers，which show that the methods have fairly good performance.

专有名词识别（Named-Entity Recognition，NER）是自然语言处理和信息检索的基础。现有的很多文献集中于人名、地名、机构名等的识别，很少涉及到书名和电影名等较为复杂的专有名词。专注于某搜索引擎的用户查询日志中出现的这类复杂专有名词的识别。根据用户的查询在网络中的上下文数据，将查询进行粗切分，并利用该网络数据作为训练语料训练复杂专名分类器。使用三种不同的分类器，证实该方法能取得相当好的效果。

... 许多研究者^[1,2,3,4,5]均是针对搜索日志中的命名实体和专有名词进行挖掘研究 ...

2012

0.0

1.13

... 许多研究者^[1,2,3,4,5]均是针对搜索日志中的命名实体和专有名词进行挖掘研究 ...

2007

0.0

1.13

. 2007, 21(1):109-114

Research in Search Engine User Behavior Based on Log Analysis

用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一.为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5000万条查询日志进行了分析.我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析.分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义.

... 余慧佳等^[6]利用大规模查询日志对网络搜索引擎用户行为进行研究 ...

2011

1.854

0.0

. 2011, 38(11):13847-13856 DOI:10.1016/j.eswa.2011.04.188

How do Users Describe Their Information Need:Query Recommendation Based on Snippet Click Model

Abstract Query recommendation helps users to describe their information needs more clearly so that search engines can return appropriate answers and meet their needs. State-of-the-art researches prove that the use of users’ behavior information helps to improve query recommendation performance. Instead of finding the most similar terms previous users queried, we focus on how to detect users’ actual information need based on their search behaviors. The key idea of this paper is that although the clicked documents are not always relevant to users’ queries, the snippets which lead them to the click most probably meet their information needs. Based on analysis into large-scale practical search behavior log data, two snippet click behavior models are constructed and corresponding query recommendation algorithms are proposed. Experimental results based on two widely-used commercial search engines’ click-through data prove that the proposed algorithms outperform practical recommendation methods of these two search engines. To the best of our knowledge, this is the first time that snippet click models are proposed for query recommendation task. Highlights ? Users’ information needs are not only expressed by their search queries, but also by the snippets of the results they click. ? A query recommendation framework was proposed in which keywords are recommended based on their appearance in clicked snippets. ? The nature of query recommendation process was analyzed from user’s perspective. Two snippet click models and corresponding algorithms are presented. ? Effectiveness of the proposed query recommendation method was demonstrated based on two commercial search engine’s click-through logs.

... Liu等^[7]基于用户的搜索行为, 利用查询日志进行用户查询推荐 ...

2007

0.0

2.181

... 刘奕群等^[8]基于用户行为分析研究搜索引擎的自动性能评价 ...

2009

0.0

... Zheng等^[9]在用户查询日志中, 提出基于用户行为的协同过滤新词识别方法 ...

2002

0.0

0.443

. 2002, 25(2):115-119

A Study on Automatic Identification for Internet New Words According to Word-building Rule

网络新词语的自动识别是中文信息处理中的一个热点研究课题.文章在对加工过的网上文本语料统计的基础上,根据汉语构词法建立规则库,通过调用"互斥性字串"过滤规则和构词规则来确定新词语.设计并实现了网络新词语的自动识别实验系统,经封闭测试,准确率为91.2%,召回率为95%.

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

2004

0.0

1.13

. 2004, 18(6):1-9

Internet-oriented Chinese New Words Detection

随着社会的飞速发展,新词语不断地在日常生活中涌现出来.搜集和整理这些新词语,是中文信息处理中的一个重要研究课题.本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语.根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于的编纂,在实用中大大的减轻了人工查找新词语的负担.

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

... 3 扩展搜索日志上下文的新词识别邹刚等^[11]认为, 新词语就是已有汉字或词语的一种组合, 有两个特征:具有重复出现的规律 ...

2013

0.0

2.181

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

2012

0.0

0.61

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

2000

0.0

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

2004

0.0

... 以往对新词识别的研究主要集中在文本领域^{[10,11,12,13,14,15]} ...

2009

0.0

0.457

. 2009, 45(19):9-11 DOI:10.3778/j.issn.1002-8331.2009.19.003

Phrase Filtering Technology Oriented to Term Extraction

1.College of Computer Science and Technology，Nanjing University of Science and Technology，Nanjing 210094，China 2.Research Center of Computer & Language Information Engineering，CAS，Beijing 100097，China

In the term extraction process，some phrases or phrase fragments containing active lexical represent as the noisy，which usually have the stable collocation pattern and a high co-occurrence probability in the corpus.The traditional phrase filtering methods are inclined to measure the cohesion of the inner words，and own less discriminate ability with these active noisy.This paper proposes a phrase filtering approach based on left/right entropy technology to evaluate the active degree of words in the phrases or phrase fragments and filter the ones having high value.Validated by the tests，this approach can effectively remove the active noisy and improve the performance of the multi-word term extraction system.

在术语抽取工作中，经常会遇到一些包含活跃词汇的短语或短语碎片，这些干扰项一般具有稳定的搭配模式，并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度，对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法，估算出短语或短语碎片中词语的活跃度，并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中，实验证实能够有效去除这些干扰项，提升术语抽取系统的性能。

... 由于字串的左右熵^[16]是从该字串的外部结合度即对上下文环境的依赖度来确定分割界限, 体现了该字串的灵活性 ...

2013

0.0

... 4 实验结果及分析实验数据为2011年12月30日-12月31日两天的搜狗日志^[17], 使用其中的查询串作为实验数据来源 ...

2013

0.0

... 由于NLPIR^[18]即ICTCLAS2013版新增了新词发现模块, 其中采用的新词识别算法为文献[19]中所用的方法, 为了证明本文方法的有效性, 将其与NLPIR提取的新词作对比, 实验结果如表4所示: ...

2008

0.0