%A 郝慧 %T 一种基于科技查新的跨库检索去重算法 %0 Journal Article %D 2015 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2015.01.13 %P 89-95 %V 31 %N 1 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4005.shtml} %8 2015-01-25 %X

[目的] 通过对科技查新中的跨库检索结果进行去重, 提高查新检索效率。[方法] 选取不同数据库检索记录中唯一性的特征四元组{论文名称, 期刊名, 发表时间, 第一作者}信息, 用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据。[结果] 跨库检索去重算法对数据库检索结果进行初步分析和去重, 提高查新检索效率。通过测试, 算法去重准确率较高, 而召回率受数据库收录信息完善度的影响, 还有提高的空间。[局限] 算法处理效果依赖于从数据库检索记录中提取特征四元组, 由于不同数据库的检索返回结果存在差异, 需要针对不同论文数据库定制检索记录特征抽取模板。[结论] 通过实验测试, 算法具有较高的去重准确率和处理效率, 符合预定科技查新需求。