科技文献数据库中机构名称匹配策略研究*
孙海霞, 王蕾, 吴英杰, 华薇娜, 李军莲

Matching Strategies for Institution Names in Literature Database
Sun Haixia,Wang Lei,Wu Yingjie,Hua Weina,Li Junlian
表4 测试数据集统计
测试数据集分组 基础数据集合 新增数据集合
序号 CBM收录年份范围 机构类别 去重后机构名称串 序号 CBM收录年份范围 机构类别 去重后机构名称串
第一组(T1) TBD1 2006-2008 高等院校 22 685 TID1 2009-2011 高等院校 10 192
研究所 11 178 研究所 5 182
医院 93 895 医院 59 937
合计 127 758 合计 75 311
第二组(T2) TBD2 2006-2009 高等院校 26 943 TID 2 2010-2011 高等院校 5 932
研究所 13 195 研究所 3 165
医院 113 554 医院 40 281
合计 153 692 合计 49 378
第三组(T2) TBD3 2006-2010 高等院校 31 014 TID3 2011 高等院校 1 862
研究所 15 051 研究所 1 313
医院 133 003 医院 20 833
合计 179 068 合计 24 008