Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (1): 89-95    DOI: 10.11925/infotech.1003-3513.2015.01.13
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
一种基于科技查新的跨库检索去重算法
郝慧
北京工业大学图书馆 北京 100124
A Duplicate Removal Algorithm of Cross-database Search Based on Sci-tech Novelty Retrieval
Hao Hui
Beijing University of Technology Library, Beijing 100124, China
全文: PDF(3202 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 通过对科技查新中的跨库检索结果进行去重, 提高查新检索效率。[方法] 选取不同数据库检索记录中唯一性的特征四元组{论文名称, 期刊名, 发表时间, 第一作者}信息, 用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据。[结果] 跨库检索去重算法对数据库检索结果进行初步分析和去重, 提高查新检索效率。通过测试, 算法去重准确率较高, 而召回率受数据库收录信息完善度的影响, 还有提高的空间。[局限] 算法处理效果依赖于从数据库检索记录中提取特征四元组, 由于不同数据库的检索返回结果存在差异, 需要针对不同论文数据库定制检索记录特征抽取模板。[结论] 通过实验测试, 算法具有较高的去重准确率和处理效率, 符合预定科技查新需求。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
郝慧
关键词 跨库检索科技查新去重算法I-Match    
Abstract

[Objective] Remove the data redundancy of cross-database searching in sci-tech novelty retrieval and improve the retrieval efficiency. [Methods] Choose thesis names, serial titles, publication dates and first authors of search records from different databases and build the character strings of search records by modifying comparison algorithm related to I-Match as the evidence of duplicate removal. [Results] The duplicate removal algorithm can improve retrieval effeciency by analyzing and duplicating the retrieval results from different databases. The experient suggests the precision of algorithm is superior, while the recall of the algorithm could be improved by modifying database records. [Limitations] The treatment effect depends on four characters extracted from database search records, different feature extraction model of search records needed to be customized according to different thesis databases due to the search result diffenrence. [Conclusions] The experiment test suggests the algorithm has a decent precision of duplicate removal and treatment efficency, which accords with the requirement of sci-tech retreival.

Key wordsCross-database search    Sci-tech novelty retrieval    Duplicate removal algorithm    I-Match
收稿日期: 2014-07-21     
:  G250  
通讯作者: 郝慧,ORCID:0000-0002-1669-5340,E-mail:haohsm@163.com。     E-mail: haohsm@163.com
引用本文:   
郝慧. 一种基于科技查新的跨库检索去重算法[J]. 现代图书情报技术, 2015, 31(1): 89-95.
Hao Hui. A Duplicate Removal Algorithm of Cross-database Search Based on Sci-tech Novelty Retrieval. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.01.13.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.01.13

[1] 谢新洲, 滕跃. 科技查新手册[M]. 北京: 科学技术文献出版社, 2004. (Xie Xinzhou, Teng Yue. Science and Technology Novelty Search Handbook [M]. Beijing: Scientific and Technical Documentation Press, 2004.)
[2] 李雪婷, 李莘, 王晓丹. 基于JAVA 的图书馆中文查新智能去重系统的研究与实现[J]. 图书馆学研究, 2013(17): 56-58. (Li Xueting, Li Shen, Wang Xiaodan. Research and Implementation of Intelligent Duplicate Removal System about Chinese Novelty Search in Library Based on JAVA [J]. Researches on Library Science, 2013(17): 56-58.)
[3] 洪道广. Google Scholar 的数据整合研究[J]. 现代情报, 2010, 30(7): 39-41, 45. (Hong Daoguang. Research on Data Integration of Google Scholar [J]. Journal of Modern Information, 2010, 30(7): 39-41, 45.)
[4] Broder A Z, Glassman S C, Manasse S, et al. Syntactic Clustering of the Web [C]. In: Proceedings of the 6th International World Wide Web Conference. Essex, UK: Elsevier Science Publishers, 1997: 1157-1166.
[5] Broder A Z. Identifying and Filtering Near-duplicate Documents [C]. In: Proceedings of the 11th Annual Symposium on Combinatorial Pattern Matching (COM'00). London,UK: Springer-Verlag, 2000: 1-10.
[6] Chowdhury A, Frieder O, Grossman D, et al. Collection Statistics for Fast Duplicate Document Detection [J]. ACM Transactions on Information Systems, 2002, 20(2): 171-191.
[7] Charikar M S. Similarity Estimation Techniques from Rounding Algorithms [C]. In: Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC'02). New York, USA: ACM, 2002: 380-388.

[1] 姚俊良,乐小虬. 科技查新查新点语义匹配方法研究[J]. 数据分析与知识发现, 2019, 3(6): 50-56.
[2] 王培霞,余海,陈力,王永吉. 科技查新中检索词智能抽取系统的设计与实现*[J]. 现代图书情报技术, 2016, 32(11): 82-93.
[3] 李广利, 李书宁. 科技查新报告自动生成软件的设计与实现[J]. 现代图书情报技术, 2013, 29(2): 82-87.
[4] 郝丹, 周津慧, 关贝, 王衍喜, 韩继欣. 文献跨库检索中去重方法研究与应用[J]. 现代图书情报技术, 2011, 27(7/8): 116-120.
[5] 姜丽华,张宏斌,杨晓蓉 . 基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006, 1(5): 10-12.
[6] 于婷,宋宇宁 . 计算机辅助软件在科技查新工作中的应用[J]. 现代图书情报技术, 2006, 1(12): 85-88.
[7] 姜爱蓉,黄美君,窦天芳 . 数字资源整合与信息门户建设——清华大学图书馆的探索与实践[J]. 现代图书情报技术, 2006, 1(11): 2-6.
[8] 李飒. 一种轻量级的资源智能选择技术及实现[J]. 现代图书情报技术, 2005, 21(10): 19-22.
[9] 马景娣,田稷. 基于J2EE的科技查新综合信息系统的设计与实现[J]. 现代图书情报技术, 2004, 20(8): 77-78.
[10] 周国华,邵正荣. 建立查新工作网络管理平台的尝试[J]. 现代图书情报技术, 2004, 20(6): 64-66.
[11] 姜爱蓉,王平,郑小惠. 分布异构资源整合管理系统的技术特点和应用趋势——MetaLib & SFX 综述[J]. 现代图书情报技术, 2004, 20(4): 1-5.
[12] 陈欣. .NET环境下跨库检索系统的设计与检索代理的实现[J]. 现代图书情报技术, 2004, 20(11): 27-31.
[13] 姜爱蓉,王平. 分布环境下的数字资源集成管理系统——ENCompass系统综述[J]. 现代图书情报技术, 2003, 19(6): 27-30.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn