Data Analysis and Knowledge Discovery  2024, Vol. 8 Issue (5): 29-37    DOI: 10.11925/infotech.2096-3467.2023.0475
Fusion of Organization Authority Files from Multiple Sources
Fan Yunman,Chen Ying,Tang Xiaoli()
Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China
[Objective] This paper aims to improve the selection and evaluation of the organization authority files (OAF) and address the mapping issues between OAF and redundant relationships. [Methods] First, we examined the existing OAF and related studies. Then, we constructed a fusion model with six steps: data collection and analysis, metadata framework fusion, organization relationship fusion, alias fusion, OAF data model construction, and verification of fusion results. Finally, we examined the new model using data from Dimensions, Scopus, and Web of Science. [Results] Our new model’s F1 value reached 0.97 or above in the first, second, and third-level organizations, and the Dimensions made the most significant contribution. We constructed an OAF containing 5,128 organizations. [Limitations] The organization relationship only included the parent-child relations. Cross-reference relations and the choice of standard organization names need to be studied. We also need to verify the proposed model with more data. [Conclusions] The new model could effectively integrate OAF from multiple sources.

Key wordsOrganization Authority File Fusion      Metadata Framework Fusion      Multi-source OAF      Scientific Research Entity Authority     
Received: 19 May 2023      Published: 15 March 2024
ZTFLH:  G254  
Fund:Chinese Academy of Medical Sciences Medical and Health Science and Technology Innovation Project (Major Collaborative Innovation Project)(2021-I2M-1-033)
Corresponding Authors: Tang Xiaoli,ORCID: 0000-0001-6946-3482,。   

Fan Yunman, Chen Ying, Tang Xiaoli. Fusion of Organization Authority Files from Multiple Sources. Data Analysis and Knowledge Discovery, 2024, 8(5): 29-37.

规范文档 数据量 数据来源 版权 发展态势
VIAF 3 000万 多个国家规范文档 免费公开 持续发展
SAP 12万 Scopus数据库 商业 持续发展
OEL 1.6万 WOS数据库 商业 持续发展
ISNI 155万 ISNI注册机构数据 免费公开 持续发展
OrgRef 3.1万 Wikipedia、ISNI等开放数据源 免费公开 停更
GRID 10万 Dimensions数据库 免费公开 Dimensions独有,ROR维持社区模式
Comparative Analysis of Well-Known OAF
Fusion Model of Organization Authority File
对比项 Dimensions WOS Scopus ROR ISNI Ringgold VIAF OrgRef Wikidata
基本信息 机构ID
Metadata Comparison of Multiple OAF
问题类型 融合策略 说明
字段名称一致且含义一致 去重保留 机构名称、机构别名
字段名称不一致但含义一致 取多来源中用得较多的名称 Address[wos];scopus:affilAddress[Dimensions]
字段名称一致,含义一致,取值不一致 深入分析字段取值 阜外医院.type[wos]=health,阜外医院.type[Dimensions]=healthcare
字段名称不一致但表达含义一致 统一表述方式,如父子关系统一为child_ids 以表达机构父子关系为例,如scopus-childids,wos-parent_organizationsids
个别来源缺失但非常重要 补齐来源中缺失字段 WOS中无机构ID,课题组指定
个别来源中存在,非重要 直接融合保留 EMAIL[Dimesnions]
Problems and Solutions of the Fusion of Metadata Frameworks
Metadata Relation of Multiple OAF
Data Model of Organization Authority File(Partial)
问题类型 举例 解决策略
不同来源中的关系不一致 Dimensions中机构关系为相关关系,Scopus的关系为父子关系 将Dimensions中的节点增补为待映射节点,增加映射关系(算法自动匹配、人工审核),增加父子关系(算法自动增加、人工审核)
不同来源中的机构所处层级不一致 WOS:伦敦大学学院-伦敦大学医学院
不同来源中的机构映射错误 约翰霍普金斯大学传播项目中心、约翰霍普金斯大学彭博公共卫生学院 将映射错误的ID加入映射错误名单,通过映射算法对其排除
机构更名导致三个机构存在映射关系 马克斯普朗克发育生物学研究所改名为马克斯普朗克生物学研究所 规范文档中建立变更关系
需要人工调研发现的存在错误的机构 Scopus、WOS中都存在UCSF贝尼奥夫儿童医院奥克兰;二者所处的层级不一致;WOS中错误挂接 人工调研问题机构并修正
Problems and Solutions of the Fusion of Relation
问题描述 示例 解决策略
中文名称 上级机构 别名
兄弟节点包含相同的别名 医学生物学研究所-CAMS 中国医学科学院北京协和医学院 Inst Med Biol; IMB 查准为主,兼顾查全
同一个机构包含重复的别名 伦敦学校经济与政治学 伦敦大学 London School of Economics and Political Science; London Sch Econ & Polit Sci; London School of Economics and Political Science 去重
美国国立卫生研究院国家补充和替代医学中心 美国国立卫生研究院 Natl Ctr Comp Alt Med (NCCAM); NCCAM; National Center for Complementary and Alternative Medicine (NCCAM); Natl Ctr Comp Alt Med (NCCAM) 去重
父级中包含子机构的别名 加州大学洛杉矶医学中心 加州大学洛杉矶分校 Univ Calif Los Angeles Med Ctr;Ronald Reagan UCLA Med Ctr 父归父、子归子
Problems and Solutions of the Fusion of Alias
问题描述 示例 解决策略
中文名称 上级机构 词形变体
子机构中包含父机构的变体 圣保罗巴斯德研究所 Institut Pasteur INST PASTEUR
父机构中包含子机构的变体 多伦多大学 多伦多大学健康网络 10EN212 TORONTO GEN HOSP 父归父,子归子
机构中包含机构的地址变体 伦敦大学 29 39 BRUNS WICK SQ 简称扩为全称
包含非父子机构但是名称相似的机构变体 华盛顿大学 GEORGE WASHINGTON UNIV 查准为主,兼顾查全
包含长度过短的变体 中国科学院地质与地球物理研究所 中国科学院 INS 查准为主,兼顾查全
加州大学圣地亚哥分校 加州大学 0109 UNIV CALIF SAN DIEGO 查准为主,兼顾查全
Problems and Solutions for the WOS Variant Term
一级 123 2 4 - 0.984 0.969 0.976
二级 2 796 17 58 - 0.994 0.980 0.987
三级 1 198 2 28 - 0.998 0.977 0.988
Confusion Matrix of Fusion Results
比较项 Dimensions Scopus WOS
记录数 1 852 2 580 379
交集数量 619 622 339
Fusion值 0.33 0.24 0
Fusion Rate of the Three Sources
问题描述 问题原因 解决策略
机构融合错误 规范文档内缺少机构间变迁 增加机构变迁的变更关系
机构缺少融合 没有对规范文档内部的机构融合 源内消歧
没有对规范文档之间的机构融合 源间消歧
Problems Discovered During Fusion Result Verification and Solution Strategies
Organization Authority File(Partial)
