中国ORCID 注册平台iAuthor的设计与实现*
张建勇, 黄永文, 于倩倩, 董智鹏, 郭舒
中国科学院文献情报中心 北京 100190
张建勇, ORCID: 0000-0001-7533-1726, E-mail: zhangjy@mail.las.ac.cn
摘要
目的为中国科研人员提供ORCID注册, 并建立个人科研成果管理空间。【应用背景】ORCID致力于解决学术研究中的科研人员姓名歧义问题, 而这一问题也长期困扰中国学术界, 通过与ORCID合作, 满足中国科研人员身份唯一识别需求。方法通过ORCID提供的API帮助科研人员注册或关联ORCID, 以CAS IR、CSCD、Web of Science等作为基础数据源, 快速形成科研人员成果信息, 并自动建立个人学术主页。结果实现为科研人员获取ORCID的功能, 科研人员可以对其个人信息和科研产出进行管理, 并实现这些信息与ORCID系统的交互。结论中国ORCID注册平台iAuthor引起了国内科研机构和高校的广泛关注, 并吸引了大量用户, 为促进科研人员姓名歧义问题的解决奠定良好基础。
关键词: iAuthor; ORCID; 科研人员唯一标识; 姓名歧义
中图分类号:G250
Design and Implementation of ORCID China Service ‘iAuthor’
Zhang Jianyong, Huang Yongwen, Yu Qianqian, Dong Zhipeng, Guo Shu
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
Abstract

[Objective] To help Chinese researchers acquire an ORCID ID and manage academic achievements. [Context] ORCID aims to solve the name ambiguity problem in research and scholarly communications, which also troubles Chinese academic circles in a long time. Collaborating with ORCID, to meet the needs of Chinese researcher’s persistent unique identifier. [Methods] Through the ORCID API, help Chinese researchers acquire an ORCID ID. Integrated and linked with mutiple third-party systems such as CAS IR, CSCD, Web of Science, show scientific research achievements and create an academic profile automatically. [Results] Register a unique ORCID identifier for researcher. Researchers could manage their personal information and scientific outputs, and synchronize these data with ORCID. [Conclusions] A large number of scientific research institution and universtity researchers are taking use of iAuthor to obtain ORCID IDs, which lays a good fundation for solving the name ambiguity problem.

Keyword: iAuthor; ORCID; Researcher identifier; Name ambiguity
1 前言

作者姓名歧义问题一直困扰着国内外出版界和学术界, 姓名的不同写法已经产生了科研人员的身份识别危机[1]。国际上各研究机构、非盈利组织、出版机构、图书馆、数据管理机构等纷纷推出人名标识系统, 如开放研究者与贡献者身份识别码(Open Researcher and Contributor IDentifier, ORCID)[2]、Thomson Reuters的ResearcherID[3]、Elsevier的Scopus AuthorID[4]、ISO的国际标准名称标识符ISNI[5]等, 试图通过作者唯一标识解决作者的区分和识别问题。ResearcherID、AuthorID等主要是各自系统内部的标识, 而ORCID则是致力于实现不同系统之间数据交互和相互贯通, 将同一科研人员在不同系统中的科研产出进行关联和汇聚, 期望改善现有的科研生态系统[6]。目前, ORCID已经应用于主要的学术出版商, 如ACM、Elsevier、Hindawi、IEEE、NPG、Springer、Taylor & Francis、Thomson Reuters、Wiley等, 同时也被应用在指标工具中, 如Altmetrics、Impact Story、PLOS文章计量(PLOS Article-level Metrics)等[2]

由于中国汉字一音多字的特性、姓名结构的特点, 国际组织很难对国内作者进行识别, 这项工作迫切需要我国自建系统来解决。ORCID的出现以及良好的发展态势为我国避免自建ID而又与国际保持一致地解决这一问题带来了希望。为此, 中国科学院文献情报中心与ORCID进行合作, 启动中国ORCID注册平台iAuthor的建设, 一方面帮助中国科研人员创建一个永久的、国际通用的科研身份证号(ORCID号), 解决中文姓名的识别问题; 另一方面通过与第三方系统的交互, 如Web of Science (WOS)、中国科学引文数据库(CSCD)、中国科技论文与引文数据库(CSTPCD)、中国科学院机构知识库网格(CAS IR GRID)等, 帮助科研人员快速搜集和展示科研成果信息及其科研影响力, 并逐步与期刊投稿、基金申请等科研工作流进行集成, 促进ORCID号在中国科研生态系统中的应用。

2 ORCID标识的应用现状

截至2014年10月30日, 已有96万多 ORCID 号成功注册, 160多家机构成为ORCID会员[7]。ORCID将同一科研人员在不同系统中的著作信息、标识符关联起来, 真正地成为一个Hub, 如图1所示:

图1 ORCID成为一个Hub[8]

2.1 ORCID在出版过程中的应用

ORCID在出版过程中的应用解决了作者姓名歧义所导致的出版商将作者与文章元数据准确关联存在困难的问题。以自然出版集团为例[9], 其eJournalPress系统为投稿者提供了注册或关联ORCID的链接, 并允许投稿者为合作者添加ORCID。论文录用后, 作者元数据(姓名、ORCID等)输出到生产系统, 并与论文XML整合。带有作者ORCID的论文XML, 一方面提交给第三方供应商(如CrossRef等), 另一方面实现在线出版。此外, 投稿系统EES[10]、ScholarOne[11]、Editorial Manager[12]都实现了与ORCID系统的关联, 极大方便了期刊编辑人员通过ORCID唯一确定作者并寻找合适的投稿人。

2.2 ORCID在基金组织中的应用

ORCID在基金组织中的应用为其准确识别申请者及跟踪相关研究成果奠定了基础。目前, 美国国立健康研究院[13]、惠康基金会[14]、Autism Speaks[15]、美国能源部[16]等已将ORCID嵌入到他们的系统中。美国国立健康研究院的SciENcv系统[17]、惠康基金会的eGrants系统[14]帮助科研人员注册ORCID, 并获取ORCID系统中的项目、著作信息。Autism Speaks[15]开始强制要求申请者使用ORCID, 若没有ORCID, 将不能参与评审, 提高申请透明度。美国白宫科技政策办公室OSTP在AN241.3作者部分增加了ORCID字段。此外, ORCID与Ü berResearch合作启动了免费检索、关联基金的工具Ü berWizard[18], 便于用户操作。

2.3 ORCID在科研机构中的应用

科研机构往往包含多种系统, ORCID的出现为解决同一系统以及不同系统间的作者识别和科研产出归属问题提供了思路。目前, 德克萨斯A& M大学为一万名研究生创建了ORCID, 并嵌入到学位论文系统中[19]。丹麦的大学和研究机构在各自的科研管理系统中提供内部科研人员ID, 但缺乏在不同机构识别同一作者的机制, 为此丹麦8所学校与ORCID签署了联盟协议[20]。西班牙的CBUA[21]在Sevilla大学牵头下与ORCID合作, 为9家大学科研人员注册ORCID并将其嵌入到机构知识库、科研管理系统中。JISC和ARMA合作启动了Pliot项目[22], 促进ORCID在英国高等教育中的应用。

2.4 ORCID在其他人名标识系统中的应用

目前, 人名标识系统如ResearcherID[3], Scopus AuthorID[4], ISNI[5]等已实现与ORCID系统的交互, 但交互内容、交互方式有所差异。ResearcherID系统可以为科研人员注册或获取ORCID, 实现科研人员个人信息、著作信息与ORCID系统的双向交互; Scopus主要是将科研人员的AuthorID、著作信息导入到ORCID系统中; ISNI允许科研人员通过姓名检索, 并将ISNI记录添加到ORCID账户中, 交互比较单向。ORCID在其他人名标识系统中的应用, 实现了不同人名标识和著作信息在ORCID系统中的集成管理。

3 iAuthor服务平台设计与实现
3.1 iAuthor服务平台的整体框架

iAuthor服务平台是以科研人员为中心的服务系统, 帮助中国科研人员拥有国际化学术识别码, 将中国的科研工作者融入到国际科研工作者识别体系中。iAuthor服务平台可以为科研人员获得ORCID号, 辅助管理他们的个人信息(如姓名的不同形式、当前机构和曾服务机构、E-mail、研究兴趣、学科等)和科研产出(如期刊论文、会议论文、学位论文、图书、专利、标准等), 通过多种方式帮助科研人员快速建立科研成果库, 同时为其提供个人学术主页、科研产出分析等增值服务, 并可以链接被引次数和链接全文等。同时, 通过标准应用接口实现与引文系统、期刊投稿系统、机构仓储等进行基于文献信息和ORCID唯一标识的信息交换。iAuthor服务平台的框架分为5部分: 科研人员管理、科研产出管理、增值服务、关联服务和标准应用接口, 整体框架如图2所示:

图2 iAuthor服务平台的整体框架

3.2 iAuthor服务平台与ORCID交互

ORCID提供了Public API[23]、Member API[24]以及Public信息文件的下载[25]。Public API和Public信息文件的下载能获取用户的Public数据, 任何第三方均能使用。Member API遵循OAuth协议, 可以获取用户的Public和Limited数据[26], 适用于ORCID的机构会员。中国科学院文献情报中心在2012年成为ORCID的机构会员, 鉴于此, iAuthor平台调用了ORCID的Member API, 一方面实现了为科研人员创建ORCID的功能, 另一方面实现了iAuthor中科研人员个人信息、著作与ORCID系统的同步。iAuthor与ORCID系统的交互流程, 如图3所示。在ORCID网站上注册一个客户端应用, 返回信息包含应用的client id和secret, 此为系统交互的前提条件。用户登录iAuthor, 可看到系统提供了申请ORCID/关联ORCID、同步个人信息、同步著作按钮, 其中同步个人信息和同步著作分别包括从本地同步到ORCID和从ORCID同步到本地。

图3 iAuthor与ORCID系统的交互流程

(1) 申请ORCID

如果用户没有ORCID, 点击申请ORCID按钮, iAuthor将client id、secret、创建id的scope[27](/orcid- profile/create)发送给ORCID, 获取访问令牌, 然后将包含用户姓名、邮箱信息以XML格式(遵循ORCID Schema[28])发送给ORCID, 得到注册的ORCID。

(2) 关联ORCID

如果用户已有ORCID, 需要将已有的ORCID关联到iAuthor中, 点击关联ORCID按钮, 将client id、关联ORCID的scope(/authenticate)发送给ORCID, 显示ORCID的用户登录界面, 用户登录后进行授权, iAuthor得到认证码, 通过认证码获取访问令牌和用户已有的ORCID, 访问令牌在一定时限内有效。

(3) 同步个人信息

首先需要获取访问令牌和用户ORCID号, 操作同关联ORCID流程, 差异在于发送给ORCID的scope有所不同, 例如将标识符从本地同步到ORCID的scope为/orcid-bio/external-identifiers/create, 将个人信息从ORCID同步到本地scope为/orcid-bio/read-limited等, 在得到访问令牌和ORCID号后, 访问用户ORCID账户, 将本地同步到ORCID的个人信息以遵循ORCID Schema的XML格式发送给ORCID, 从而将本地个人信息同步到ORCID, 从ORCID同步到本地的信息直接存储在本地即可。

(4) 同步著作

与同步个人信息操作类似, 差异在于发送给ORCID的scope不同, 例如将著作从本地同步到ORCID的scope为/orcid-works/create, 从ORCID同步到本地的scope为/orcid-works/read-limited, 访问用户ORCID账户后, 将本地同步到ORCID的著作信息以遵循ORCID Schema的XML格式发送给ORCID, 从而将本地著作同步到ORCID, 从ORCID同步到本地的著作信息直接存储在本地即可。

3.3 科研产出的推荐与消歧处理

为了保证系统的可用性, 减轻科研人员的工作, iAuthor平台主要采用系统向用户推送著作和科研人员自己主动选取著作相互结合的方式为科研人员快速汇聚科研成果。系统推送著作方式主要通过OAI协议获取机构库、文献集成系统(如WOS、CSCD等)、科研管理系统等现有文献数据, 并按照机构进行预先梳理, 以机构为中心将机构的科研人员与科研产出进行比对和关联, 自动形成科研人员的科研产出推荐列表。科研人员主动选取著作方式主要指科研人员通过系统提供的多种科研产出导入方式, 由科研人员选择自己发表的文献, 通过Web Service接口实时检索WOS、CSCD等获取著作列表, 包括CIW和BibTex格式的文件导入方式, 以及手工添加的方式。对来源于WOS、CSCD等引文系统的著作, 系统将自动为其获取被引频次以及被引频次的链接。随着各个期刊出版系统、CSCD、WOS等引文系统里的作者越来越多地采用ORCID标识, 系统会根据ORCID标识定期准确地为科研人员推荐科研产出。iAuthor平台科研产出数据处理流程, 如图4所示:

图4 iAuthor平台科研产出数据处理流程

在对科研人员和科研产出进行关联和挂接时, 核心问题是人名消歧和归一。作者名称消歧过程主要利用文献的特征属性对文献进行聚类, 通过选择合适的特征、相似度计算方式以及特征合并方法, 可以取得较好的消歧效果。iAuthor系统在进行人名消歧和归一时, 主要采用作者的邮箱、所属机构、研究领域以及合作者作为消歧依据, 并采用基于规则的算法对大规模数据集进行作者名称消歧。iAuthor系统的作者名称自动化消歧方法主要包括三个步骤。

(1) 第一次聚类: 利用作者名简称识别不同作者名称变体下的文献, 解决名称变体的问题, 从而使得相同作者名简称的待消歧作者文献各自聚为一个簇;

(2) 第二次聚类: 根据所制定的规则集进行第二次聚类, 从而使得同一作者实体的文献各自聚为一个簇;

(3) 消歧结果输出: 对消歧结果赋予类别标签, 例如ID号, 从而表明哪些文献属于同一个作者实体。

作者名称的消歧算法的具体流程, 如图5所示:

图5 作者名称的消歧算法流程

对于通过消歧算法推荐给用户的著作, 还会存在不准确和不全面的问题, 因此iAuthor服务平台设计了用户对著作进行认领的功能, 由科研用户来最终选择和确认著作。对于不包含在推荐列表中的著作, 用户可以通过查询导入、文件导入或者手工添加的途径进行著作的增加, 不断丰富自己的科研成果。

3.4 iAuthor服务平台的主要操作流程

iAuthor服务平台与ORCID系统紧密相关, 在平台中直接使用ORCID号作为科研人员的唯一标识, 并且通过接口与ORCID系统进行数据交换。因此, 对iAuthor和ORCID系统中科研用户存在的4种场景进行分析, 如图6所示。其中, ①iAuthor中的用户, 已有ORCID标识, 关联ORCID标识; ②iAuthor中的用户, 没有ORCID标识, 申请ORCID标识; ③新建iAuthor中的用户, 已有ORCID标识, 关联ORCID标识; ④新建iAuthor中的用户, 没有ORCID标识, 申请ORCID标识。

图6 iAuthor和ORCID系统中科研用户 存在的4种场景

iAuthor服务平台根据4种情况实现了不同流程中ORCID的注册和关联功能, 操作流程如图7所示。

图7 ORCID的注册和关联操作流程

机构管理员可以批量导入单位里的科研人员, 使他们成为iAuthor服务平台的用户, 再为他们批量申请ORCID号, 如果用户没有ORCID号, ORCID系统将生成ORCID号并返回给iAuthor服务平台(见流程①); 如果用户已经拥有ORCID号, 则用户需要在iAuthor服务平台进行ORCID关联操作, 授权iAuthor服务平台获取ORCID号(见流程②)。作为单个用户, 可以由机构管理员为其申请ORCID号, 也可以自己申请ORCID号, 注册成为iAuthor服务平台的用户, 申请和关联ORCID号的操作流程与机构管理员的操作类似(见流程③和流程④)。

科研人员登录iAuthor服务平台后, 可以对系统推荐的成果列表进行认领和确认, 对认领后的成果列表可以导出。同时, 科研人员还可以将个人信息和科研产出在iAuthor平台和ORCID系统之间进行方便的同步更新。科研作者论文确认流程, 如图8所示。对于不同来源的推荐列表, 用户认领的工作量会有所不同。

(1) 如果机构有IR系统, 系统则根据人名和机构名进行判断, 将科研人员与IR系统中的科研产出进行关联。因为IR里的科研产出一般是作者提交的或者经过作者确认的, 相对来说关联的准确度高;

图8 科研作者论文确认流程示意图

(2) 如果没有IR系统, 则需要从文献数据库(如CSCD、WOS等)里进行归并处理, 主要依据作者名、所属机构、合作者等进行消歧, 为科研人员形成可能的科研产出列表, 由于人名消歧的准确率问题, 还需要科研人员对科研产出列表进一步确认。

3.5 实现效果

iAuthor服务平台界面友好, 操作简单。机构管理员可以将研究所的科研人员信息批量导入系统, 并通过多种途径快速为科研人员建立研究成果列表, 极大地简化了科研人员的工作。科研人员可以很方便地申请和关联ORCID号, 与ORCID交互流畅。截至2014年12月3日, 来自116家机构的7 684位科研人员通过iAuthor获得了ORCID号[29]。经过用户测试使用, 可以在短时间内完成ORCID号的申请和个人科研产出列表的形成, 自动生成个人学术主页, 如图9所示:

图9 科研人员个人学术主页界面

在个人学术主页显示科研人员的姓名、ORCID、机构、URL、研究领域、成果数量、被引次数等, 与ORCID系统实现了相互指引, 并提供全文链接和被引次数的链接。iAuthor平台还以多种形式展示科研人员的科研产出情况, 按年代、类型、语种、来源刊物、引文来源分别显示, 可以对著作进行人名、题名和刊名的检索, 以及多种方式的排序, 如题名、发表时间、添加时间、WOS被引次数、CSCD被引次数等。同时, 以可视化的方式展示科研人员的研究主题以及不同年代的研究轨迹, 直观地展示研究人员不同时期的研究兴趣和研究方向。iAuthor平台除了展示科研人员的中英文科研成果之外, 还可以分析科研产出的学术影响力, 主要是通过科研产出的被引次数, 如WOS被引次数、CSCD被引次数等, 如图10所示:

图10 科研人员学术产出分析

4 结语

iAuthor平台(http://iauthor.cn)已经推出, 它将成为中国科研人员在国际上展现其科研成果的平台, 将科研人员以不同姓名形式发表的科研成果和参与的学术活动汇集在一起, 全面地记录科研人员的学术成就与引用情况, 成为追踪、管理、传播其研究成果的数据中心。iAuthor平台还将继续完善和优化功能, 如实现与期刊出版社投稿系统的集成关联、支持更多数据源的查询导入、获取更多来源的被引次数等, 期望能“ 一次输入, 多次使用” , 为科研人员节省时间, 提高数据质量、提高可发现性, 为中国的科研人员提供更方便的服务。

参考文献
[1] Qiu J. Scientific Publishing: Identity Crisis [EB/OL]. [2014-08- 22]. http: //www. nature. com/news/2008/080213/full/451766a. html. [本文引用:1]
[2] ORCID. Distinguish Yourself in Three Easy Steps [EB/OL]. [2014-08-22]. http://orcid.org/. [本文引用:2]
[3] Thomson Reuters. What is ResearcherID?[EB/OL]. [2014- 10-22]. http://www.researcherid.com/. [本文引用:2]
[4] The Hong Kong University of Science and Technology Library. Scopus Author ID [EB/OL]. [2014-10-22]. http://libguides.ust.hk/content.php?pid=213854&sid=1787976. [本文引用:2]
[5] INSI International Agency. International Stand ard Name Identifier (ISO 27729) [EB/OL]. [2014-10-22]. http://www.isni.org/. [本文引用:2]
[6] Haak L. A Vision to Transform the Research Ecosystem [EB/OL]. [2014-08-25]. http://www.editage.com/insights/a-vision-to-transform-the-research-ecosystem. [本文引用:1]
[7] ORCID. ORCID Statistics [EB/OL]. [2014-10-30]. https: // orcid. org/statistics. [本文引用:1]
[8] Haak L. ORCID: Persistent Identifiers for Researchers and Contributors [EB/OL]. [2014-09-04]. http://www.resourcenter.net/images/CSE/Files/2014/AnnMtg/Handouts/03_Haak.pdf. [本文引用:1]
[9] Rebecca B. ORCID IDs in Publication: From Article Acceptance to Publication Nature Publishing Group Workflow [EB/OL]. [2014-05-19]. http: //www. inera. com/ LiteratureRetrieve. aspx?ID=119505. [本文引用:1]
[10] Elsevier. How do I Link My ORCID to My Consolidated User Profile on EES [EB/OL]. [2014-05-20]. http://help.elsevier.com/app/answers/detail/a_id/2210/p/7923/c/7928,8107/session/L3RpbWUvMTQwMDAyODM2Ni9zaWQvSDlDUVpiVWw%3D. [本文引用:1]
[11] Thomson Reuters. ORCID ID Guide [EB/OL]. [2014-05-14]. http://mchelp.manuscriptcentral.com/gethelpnow/training/admin/tutorials/ORCIDguide.pdf. [本文引用:1]
[12] Brill. Brill’s Editorial Manager (EM) Manual for Authors [EB/OL]. [2014-05-14]. http://www.brill.com/sites/default/files/editorial_manager_authors_manual.pdf. [本文引用:1]
[13] Rockey S. Taking on the Challenge of Better Biomedical Workforce Data [EB/OL]. [2014-09-15]. http://nexus.od.nih.gov/all/2013/04/11/taking-on-the-challenge-of-better-biomedical-workforce-data/. [本文引用:1]
[14] Wellcome Trust. Improvements to the ORCID Researcher Identification System [EB/OL]. [2014-09-15]. http://blog.wellcome.ac.uk/2014/06/10/improvements-to-the-orcid-researcher-identification-system/. [本文引用:2]
[15] Autism Speaks. ORCID Integration - Frequently Asked Questions [EB/OL]. [2014-09-17]. http://www.autismspeaks.org/docs/sciencedocs/grants/orcid_help_and_faq.pdf. [本文引用:2]
[16] E-Link. About the Addition of ORCID Numbers to E-Link [EB/OL]. [2014-09-17]. https: //www. osti. gov/elink/aboutorcid. jsp. [本文引用:1]
[17] NCBI. SciENcv [EB/OL]. [2014-09-16]. http://www.ncbi.nlm.nih.gov/books/NBK154494/. [本文引用:1]
[18] Über Research. ORCID-wizard [EB/OL]. [2014-09-17]. http://www.uberresearch.com/orcid-wizard/. [本文引用:1]
[19] ORCID. Use Cases [EB/OL]. [2014-09-19]. https: //orcid. org/organizations/institutions/usecases. [本文引用:1]
[20] Haak L. Denmark Adopts ORCID! A Consortium Approach to ORCID Implemenation [EB/OL]. [2014-09-18]. http://orcid.org/blog/2014/09/03/denmark-adopts-orcid-consortium-approach-orcid-implementation. [本文引用:1]
[21] Haak L. ORCID in Andalucia! CBUA Joins ORCID as Consortium Member [EB/OL]. [2014-09-19]. http://orcid.org/blog/2014/10/01/orcid-andalucia-cbua-joins-orcid-consortium-member. [本文引用:1]
[22] Haak L. ORCID in the UK: Jisc/ARMA Pilot Project and HESA Student Records [EB/OL]. [2014-09-19]. http://orcid.org/blog/2014/03/03/orcid-uk-jiscarma-pilot-project-and-hesa-student-records. [本文引用:1]
[23] Tutorial: Searching with the API[EB/OL]. [2014-10-23]. http://support.orcid.org/knowledgebase/articles/132354-tutorial-searching-with-the-api. [本文引用:1]
[24] ORCID. Introduction to the ORCID API [EB/OL]. [2014-1020]. http://support.orcid.org/knowledgebase/articles/180285-introduction-to-the-orcid-api. [本文引用:1]
[25] ORCID. How do I Get the Public Data File [EB/OL]. [2014- 10-21]. http://support.orcid.org/knowledgebase/articles/223698-how-do-i-get-the-public-data-file. [本文引用:1]
[26] ORCID. ORCID Privacy Settings [EB/OL]. [2014-09-25]. http://support.orcid.org/knowledgebase/articles/124518-orcid-privacy-settings. [本文引用:1]
[27] ORCID. ORCID Scopes [EB/OL]. [2014-10-20]. http://support.orcid.org/knowledgebase/articles/120162-orcid-scopes. [本文引用:1]
[28] GitHub. ORCID XSD Information [EB/OL]. [2014-10-24]. https: //github. com/ORCID/ORCID-Source/blob/master/orcid-model/src/main/resources/README. md#orcid-xsd-information. [本文引用:1]
[29] iAuthor [EB/OL]. [2014-12-03]. http://iauthor.las.ac.cn/welcome/index.xhtml. [本文引用:1]