Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (2): 24-30    DOI: 10.11925/infotech.1003-3513.2015.02.04
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
专利检索日志的同义词获取
谷威1, 李超凡1, 王洪俊2, 肖诗斌3, 施水才3
1. 国家知识产权局专利局 北京 100088;
2. 北京拓尔思信息技术股份有限公司 北京 100101;
3. 北京信息科技大学TRS 软件开放实验室 北京 100101
Acquisition of Synonym from Patent Query Logs
Gu Wei1, Li Chaofan1, Wang Hongjun2, Xiao Shibin3, Shi Shuicai3
1. The Patent Office of the State Intellectual Property Office of the P.R.C, Beijing 100088, China;
2. Beijing TRS Information Technology Co., Ltd., Beijing 100101, China;
3. TRS Software Opening Laboratory, Beijing Information Science & Technology University, Beijing 100101, China
全文: PDF(511 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 研究专利检索日志中的同义词获取方法。[方法] 提出一种基于用户行为分析的语义关系获取算法, 利用检索式的逻辑运算符关系提取候选同义词对, 结合拼音、字型、缩写、简繁等特征, 从专利检索日志中挖掘出一部同义词词典。[结果] 实验结果表明, 该方法识别同义词的准确率达到74.5%, 共生成17 495 组同义词, 生成词典的规模超过目前已有研究中的一些方法。[局限] 该词典生成算法较适用于使用复杂检索式的图书情报检索领域。[结论] 丰富了基于日志的语义词典获取领域的研究。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李超凡
肖诗斌
施水才
谷威
王洪俊
关键词 专利检索日志日志挖掘语义知识获取词典构建    
Abstract

[Objective] This paper researches on the acquisition of synonym from patent query logs. [Methods] Propose a method based on the analysis of user behavior. Use logic expression parser to generate candidate synonym pairs, combine features such as pinyin, Chinese character pattern, abbreviation, traditional Chinese and simplified style to generate a synonym dictionary. [Results] Experiment results show that precision rate reaches 74.5%. This method generates 17 495 synonym pairs and the scale of dictionary exceeds some existing methods. [Limitations] This method is feasible for library and information retrieval with complex expressions. [Conclusions] This research provides a certain significant reference for log-based knowledge acquisition.

Key wordsPatent query log    Log mining    Semantic knowledge acquisition    Dictionary construction
收稿日期: 2014-01-06     
:  G353  
  TP391  
基金资助:

本文系国家科技支撑计划课题“具有行业特色的增强型搜索引擎服务系统开发”(项目编号:2011BAH11B03)的研究成果之一。

通讯作者: 王洪俊, ORCID: 0000-0002-4231-1427, E-mail: wang.hongjun@trs.com.cn。     E-mail: wang.hongjun@trs.com.cn
作者简介: 作者贡献声明: 谷威, 李超凡: 提出专利日志的词典获取算法, 设计研究方案;王洪俊, 肖诗斌, 施水才: 完善多特征结合的同义词识别方法,设计研究方案;谷威, 王洪俊: 采集、清洗和分析数据, 实施实验;谷威, 李超凡, 王洪俊: 论文起草;王洪俊: 最终版本修订。
引用本文:   
谷威, 李超凡, 王洪俊, 肖诗斌, 施水才. 专利检索日志的同义词获取[J]. 现代图书情报技术, 2015, 31(2): 24-30.
Gu Wei, Li Chaofan, Wang Hongjun, Xiao Shibin, Shi Shuicai. Acquisition of Synonym from Patent Query Logs. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.02.04.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.02.04

[1] Aureka [EB/OL]. [2014-06-18]. http://ip-science.thomsonreuters.com/m/pdfs/aureka_factsheet. pdf.
[2] TDA [EB/OL]. [2014-06-18]. http://ip.thomsonreuters.com/sites/default/files/m/1004788.pdf.
[3] PIAS [EB/OL]. [2014-06-18]. http://search.cnipr.com/topic!toAnalyse.action.
[4] PatentEX [EB/OL]. [2014-06-18]. http://www.daweisoft.com/Product/detail.aspx?ID=43.
[5] 翟东升, 刘晨, 欧阳轶慧. 专利信息获取分析系统设计与 实现[J]. 现代图书情报技术, 2009(5): 55-60. (Zhai Dongsheng, Liu Chen, Ouyang Yihui. The Design and Implementation of Patent Information Acquiring and Analysis System [J]. New Technology of Library and Information Service, 2009(5): 55-60.)
[6] 王源, 吴晓滨, 涂从文, 等. 后控规范的计算机处理[J]. 现 代图书情报技术, 1993(2): 4-7. (Wang Yuan, Wu Xiaobin, Tu Congwen, et al. Computer Processing of Post-Contral Indexing [J]. New Technology of Library and Information Service, 1993(2): 4-7.)
[7] 宋明亮. 汉语词汇字面相似性原理与后控制词表动态维护 研究[J]. 情报学报, 1996, 15(4): 261-271. (Song Mingliang. Research on Principle of Literal Similarity Among Chinese Words and Maintaining Post-Controlled Vocabulary [J]. Journal of the China Society for Scientific and Technical Information, 1996, 15(4): 261-271.)
[8] 朱毅华. 智能搜索引擎中的同义词识别算法研究[D]. 南 京: 南京农业大学, 2001. (Zhu Yihua. Automatic Recognition of Synonym in Construction of Intelligent Search Engine [D]. Nanjing: Nanjing Agricultural University, 2001.)
[9] Agirre E, Rigau G. A Proposal for Word Sense Disambiguation Using Conceptual Distance [C]. In: Proceedings of the 1st Conference on Recent Advances in NLP, Tzigov Chark, Bulgaria. 1995: 16-22.
[10] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中 文计算语言学及中文语言处理, 2002, 7(2): 59-76. (Liu Qun, Li Sujian. Word Similarity Computing Based on How-net [J]. Computational Linguistics and Chinese Language Processing, 2002, 7(2): 59-76.)
[11] Chen H, Lynch K J. Automatic Construction of Networks of Concepts Characterizing Document Database [J]. IEEE Transactions on Systems, Man and Cybernetics, 1992, 22(5): 885-902.
[12] Grefenstette G. Automatic Thesaurus Generation from Raw Text Using Knowledge-Poor Techniques [C]. In: Proceedings of the 9th Annual Conference of the UW Centre for the New OED and Text Research. 1993.
[13] Turney P D.Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL [C]. In: Proceedings of the 12th European Conference on Machine Learning, Freiburg, Germany. 2001: 491-502.
[14] Higgins D.Which Statistic Reflect Semantics? Rethinking Synonymy and Word Similarity [C]. In: Proceedings of International Conference on Linguistic Evidence. 2004: 265-284.
[15] Wei X, Peng F, Tseng H, et al. Context Sensitive Synonym Discovery for Web Search Queries [C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York, USA: ACM, 2009: 1585-1588.
[16] The Lex & Yacc Page [EB/OL]. [2014-06-18]. http://dinosaur.compilertools.net/.

[1] 陈润文,邱勇,黄文彬,王军. 基于日志分析的民办高校大学生网络生活类型研究[J]. 数据分析与知识发现, 2017, 1(8): 31-38.
[2] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[3] 强韶华, 吴鹏. 地域性差异视角下的网站分类用户心智模型空间性研究[J]. 现代图书情报技术, 2015, 31(11): 68-74.
[4] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011, 27(4): 58-63.
[5] 朱玲, 聂华. 通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J]. 现代图书情报技术, 2011, 27(12): 74-78.
[6] 赖茂生,屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009, 25(4): 50-56.
[7] 赖茂生,屈鹏. 网络搜索中语言使用特征研究[J]. 现代图书情报技术, 2008, 24(7): 47-53.
[8] 王媛媛,钟永恒 . 基于SQL Server 2005的Web日志挖掘系统构建[J]. 现代图书情报技术, 2006, 1(5): 58-61.
[9] 柳胜国. Web日志挖掘数据预处理方法研究  [J]. 现代图书情报技术, 2004, 20(12): 55-57.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn