科技文献数据库中机构名称匹配策略研究*
|
孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲
|
Matching Strategies for Institution Names in Literature Database
|
Sun Haixia,Wang Lei,Wu Yingjie,Hua Weina,Li Junlian
|
|
表4 测试数据集统计 |
|
|
测试数据集分组 | 基础数据集合 | 新增数据集合 | 序号 | CBM收录年份范围 | 机构类别 | 去重后机构名称串 | 序号 | CBM收录年份范围 | 机构类别 | 去重后机构名称串 | 第一组(T1) | TBD1 | 2006-2008 | 高等院校 | 22 685 | TID1 | 2009-2011 | 高等院校 | 10 192 | 研究所 | 11 178 | 研究所 | 5 182 | 医院 | 93 895 | 医院 | 59 937 | 合计 | 127 758 | 合计 | 75 311 | 第二组(T2) | TBD2 | 2006-2009 | 高等院校 | 26 943 | TID 2 | 2010-2011 | 高等院校 | 5 932 | 研究所 | 13 195 | 研究所 | 3 165 | 医院 | 113 554 | 医院 | 40 281 | 合计 | 153 692 | 合计 | 49 378 | 第三组(T2) | TBD3 | 2006-2010 | 高等院校 | 31 014 | TID3 | 2011 | 高等院校 | 1 862 | 研究所 | 15 051 | 研究所 | 1 313 | 医院 | 133 003 | 医院 | 20 833 | 合计 | 179 068 | 合计 | 24 008 |
|
|
|