Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 116-120     https://doi.org/10.11925/infotech.1003-3513.2011.07-08.19
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
文献跨库检索中去重方法研究与应用
郝丹1, 周津慧1,2, 关贝2, 王衍喜2, 韩继欣3
1. 西安电子科技大学经济管理学院 西安 710071;
2. 中国科学院软件研究所 北京 100190;
3. 华北电力物资总公司 北京 100075
Research on Duplicated Literature Deletion Method Based on Cross-database Search
Hao Dan1, Zhou Jinhui1,2, Guan Bei2, Wang Yanxi2, Han Jixin3
1. School of Economics and Management, Xidian University, Xi'an 710071, China;
2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;
3. North China Electric Power Materical Company, Beijing 100075, China
全文: PDF (908 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及“标题+类型”4种文献跨库去重方法,解决中文库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王衍喜
韩继欣
郝丹
周津慧
关贝
关键词 跨库检索去重策略文献信息    
Abstract:This paper takes the statistic on publications by authors and affiliations as the background.Special reasons that cause data redundancy in cross-database searching are analyzed, and four duplicate removal methods including Cross Chinese Database ID, Cross English Database ID, DOI and “Title & Type” are proposed and applied in literature statistics work effectively, which can better solve the cross-database redundancy problems between different databases.
Key wordsCross-database searching    Duplicate removal strategy    Literature information
收稿日期: 2011-05-16      出版日期: 2011-10-09
: 

G250

 
引用本文:   
郝丹, 周津慧, 关贝, 王衍喜, 韩继欣. 文献跨库检索中去重方法研究与应用[J]. 现代图书情报技术, 2011, 27(7/8): 116-120.
Hao Dan, Zhou Jinhui, Guan Bei, Wang Yanxi, Han Jixin. Research on Duplicated Literature Deletion Method Based on Cross-database Search. New Technology of Library and Information Service, 2011, 27(7/8): 116-120.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.19      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I7/8/116
[1] 数字图书馆跨库检索技术研究.http://www.cnitblog.com/zhangyu/archive/2007/02/28/23427.html.

[2] 孙君,张苏. 基于ISI与KNS服务平台的跨库检索比较[J]. 图书馆学研究, 2007(1): 64-66,45.

[3] 周津慧,王衍喜,王永吉,等. 基于领域专家学科知识链的文献资源组织与导航[J]. 科研信息化技术与应用, 2011,2(1): 33-42.

[4] 洪道广. Google Scholar 的数据整合研究[J]. 现代情报, 2010,30(7): 39-41,45.

[5] 王衍喜,周津慧,王永吉,等. 一种基于科技文献的学科团队识别方法研究[J]. 图书情报工作, 2011,55(2): 55-59.

[6] 张琪玉. 情报语言漫笔(I)[J]. 图书馆理论与实践, 2003(3): 37-39.

[7] 殷波. 网页去重技术[J]. 现代图书情报技术, 2008(z1): 71-75.

[8] 孔素然. 基于模糊匹配思想的网页去重算法 . 上海:复旦大学,2006.

[9] Ye S Z, Wen J R,Ma W Y. A Systematic Study on Parameter Correlations in Large-scale Duplicate Document Detection[J]. Knowledge and Information Systems, 2008, 14(2): 217-232.

[10] Agarwal A,Koppula H S,Leela K P, et al. URL Normalization for De-duplication of Web Pages .In:Proceeding of the 18th ACM Conference on Information and Knowledge Management. New York, NY, USA:ACM,2009: 1987-1990.

[11] 吴小惠. 分布式网络爬虫URL去重策略的改进[J]. 平顶山学院学报, 2009,24(5): 116-119.

[12] 王东,熊世桓. 基于拼音首字母查询的去重优化设计[J]. 贵州师范学院学报, 2010,26(6): 37-39.
[1] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[2] 郝慧. 一种基于科技查新的跨库检索去重算法[J]. 现代图书情报技术, 2015, 31(1): 89-95.
[3] 姜丽华,张宏斌,杨晓蓉 . 基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006, 1(5): 10-12.
[4] 姜爱蓉,黄美君,窦天芳 . 数字资源整合与信息门户建设——清华大学图书馆的探索与实践[J]. 现代图书情报技术, 2006, 1(11): 2-6.
[5] 李飒. 一种轻量级的资源智能选择技术及实现[J]. 现代图书情报技术, 2005, 21(10): 19-22.
[6] 杨静,李鋐. 天津工程师范学院职业教育期刊数据库的建设与实践[J]. 现代图书情报技术, 2005, 21(10): 70-73.
[7] 花芳,林赛华,孙平. 基于VFP的《文献信息检索与利用》题库管理系统与试题设计[J]. 现代图书情报技术, 2005, 21(1): 64-66.
[8] 姜爱蓉,王平,郑小惠. 分布异构资源整合管理系统的技术特点和应用趋势——MetaLib & SFX 综述[J]. 现代图书情报技术, 2004, 20(4): 1-5.
[9] 陈欣. .NET环境下跨库检索系统的设计与检索代理的实现[J]. 现代图书情报技术, 2004, 20(11): 27-31.
[10] 姜爱蓉,王平. 分布环境下的数字资源集成管理系统——ENCompass系统综述[J]. 现代图书情报技术, 2003, 19(6): 27-30.
[11] 王纯,孙丽军. 特色馆藏文献资源数字化研究[J]. 现代图书情报技术, 2002, 18(4): 46-48.
[12] 范爱红,姜爱蓉. 基于知识管理的学术信息资源整合体系——对ISI Web of Know ledge的评介[J]. 现代图书情报技术, 2001, 17(6): 43-46.
[13] 吴晓骏. 大学图书馆文献信息数据库建设中应注意的几个问题[J]. 现代图书情报技术, 2001, 17(4): 84-86.
[14] 王纯. 我国文献信息资源布局及网络管理[J]. 现代图书情报技术, 2000, 16(6): 70-71.
[15] 张智雄. 世纪之交图书情报自动化系统发展的几大趋势[J]. 现代图书情报技术, 2000, 16(3): 3-5.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn