刘巍:提出研究思路、设计方案、起草论文及最终版本的修订;
祝忠明: 提出研究思路、设计方案及文章最终版本的修订;
张旺强: 数据整理和功能开发;
卢利农: 功能测试及评价;
姚晓娜: 数据整理和功能开发。
在机构知识库中保存的作品信息与作者信息之间建立准确的关联关系。
【方法】用机器的方式匹配出作品与作者之间可能的关联, 将关联信息推送给相关作者进行认领, 并保存认领结果。
【结果】建立作者别名库, 赋予作者本地化的唯一标识, 解决因作者姓名变体形式导致的难以建立作者与作品之间准确关联关系的问题。
【局限】在作者信息和作品相关信息采集的过程中人工参与的成分较多; 整个功能的实现对数据质量的要求也较高。
【结论】不仅实现作者信息和相关作品信息之间的准确关联,也为将来更多深层次知识服务的开展提供可靠的数据准备。
Build the association relationships between authors and items in the Institutional Repository.
[Methods]Match authors and items by computer, and send the information to related authors to confirm.
[Results]Establish the identity’ alias library, distribute unique ID to each author and solve the problem about accurate matching the authors and their works.
[Limitations]The metadata for this function need higher quality and the process of informations collection would depend on large manual participation.
[Conclusions]This study not only accurate matches the authors and their works, but also provides accurate data for developing more knowledge service.
IR(Institutional Repository)是机构知识管理的重要机制[
在IR中, 作者与知识作品之间可靠关联的障碍主要表现在以下几个方面: 同一个人在其不同背景下的知识作品中可能有多种不同的署名标识, 如作者的真实姓名、英文署名、笔名、简称等; 多个人可能在其知识作品中因为使用相同的署名标识而引起识别的冲突; 一个人可能因其姓名、国籍等的改变在不同时期使用不同的作品署名标识。如果不对作者署名进行有效的识别和控制, IR系统内的知识作品的归属以及多个作者在一个知识作品中的贡献度排序等信息的准确性都无法得到保证。这种情况对于知识作品的有效保存、传播利用、跨库交流和知识资产的统计分析利用等都是不利的。因此, IR系统需要可靠的机制来保证作者与作品之间关系的准确识别。
目前, 解决作者与作品之间准确关联的研究很多, 主要包括作者名称规范、作者唯一标识和人名消歧等方面的研究和应用。在作者名称规范的研究方面, 香港中文大学图书馆的Chan和Yik[
3. 1 功能需求
如图1所示, 在没有建立作品认领机制的机构知识库系统中, 当输入作者的某个别名时, 系统检索出的作品可能命中率极低。像图1展示的实例只命中一条。相同原因造成的问题可能还会出现在作品统计、作者知识管理等实际应用中。
通过对以上问题的思考以及目前CSpace用户实用意见的参考, 本文提出了通过建立作者别名数据库并赋予每个作者唯一标识, 将数据库中保存的作者信息与知识作品信息中的相关信息进行匹配, 参考历次认领的结果获得可能的匹配信息, 并将匹配信息推送给可能的作者和相关人员进行认领, 通过人工认领和补充认领的方式最终确保作者信息与知识作品信息的准确关联。
3.2 功能框架及流程设计
基于以上需求调研和目标分析, 设计功能框架如图2所示, 功能的实现分为4个部分:
(1) 数据准备: 建立作者别名库, 并为作者分配唯一标识; 获取作品中用于匹配作者的元数据, 用于匹配分析。
(2) 匹配分析: 在匹配分析阶段将从作者信息中提取的作者名称规范信息与从知识作品中提取的作品信息放入匹配模块中获取匹配结果。
(3) 推送认领: 在推送认领阶段, 将匹配的知识作品通过系统信息和电子邮件的方式推介给相关作者, 推送的信息包括与作者信息匹配的知识作品信息以及作者在知识作品中的贡献度排序信息。匹配的作者可以根据实际情况做出认领或放弃操作。
(4) 补充认领: 补充认领阶段主要是为了保证认领结果的准确性, 当出现认领结果有分歧、不准确或认领缺失时, 系统为管理员提供一个接口进行补充认领。认领成功的作品除了对认领结果进行保存的同时, 还提取出作者在该知识作品中的发表背景信息(如年代、期刊等)作为以后匹配信息的参考依据。
4.1 作者标识机制
作品认领需要的一个前提条件是要建立作者唯一标识的机制, 其目的是为每个作者创建一个唯一标识作为识别作者的标志, 将系统中所有与作者相关的信息包括作者信息和元数据信息都映射到这个唯一标识上, 避免因名称引起的作品归属冲突。
在CSpace中的做法是在一个IR内作者有一个唯一标识(用户ID), 但是为了保证作者在多个IR之间互操作的唯一性又加入了机构标识(通常使用机构代码), 即“机构标识-eperson_id”的形式, 如图3所示:
这个作者唯一标识的建立给IR网格中的每个作者一个唯一的身份, 在多个IR之间进行互操作时可以保证不会造成作者信息的混乱。4.2 别名管理与作品认领的数据准备
作品认领功能的实质是将知识作品信息和作者信息进行准确的关联, 因此在进行关联之前需要对作者信息和作品信息做数据准备。如前所述, 本文所述作品认领功能中机器操作的核心部分就是人名消歧的功能, 而消歧的依据是一些重要的语料资源, 在IR这个应用背景下, 语料资源都是从IR的信息中提取出来的。在CSpace系统中信息主要有三个来源:
(1) 作者别名及相关信息: 采集作者的别名(曾在作品中使用的署名和曾用名等)、所在机构信息(包括曾经所在的机构以及机构的中英文形式)、在每个机构中的时间区间以及在机构中的任职情况等信息作为名称规范信息, 如图4所示:
(2) 从知识作品中提取的作品信息, 包括: 作品的发表年限、作者署名以及与署名对应的所在机构信息、作者基本信息、项目信息等。
(3) 从历史认领数据中提取的历史认领信息, 包括: 目标作者在某时间段内使用的作者署名信息、机构署名信息等。
4.3 匹配分析
作者信息与作品信息的匹配主要包括4个方面:
(1) 作者信息中的别名信息与作品中署名信息的匹配
将数据准备阶段从作者信息中提取到的作者姓名、别名信息与从作品信息中提取到的作者署名信息进行匹配, 匹配的过程中加入历史认领数据中作者在作品发表时间段、发表期刊中使用的署名信息作为参考。作品中作者署名与作者别名信息的匹配是必须存在的, 只有这个匹配成立才能保证目标作者有可能是作品的实际作者。
(2) 作者信息中的所在机构信息与作品中机构信息的匹配
将数据准备阶段从作者信息中提取到的所在机构信息以及作者在各机构中的时间区间与从作品信息中提取到的作者所属机构信息和作品发表时间进行匹配, 匹配的过程中加入历史认领数据中作者在作品中的机构信息、作品的发表时间等作为参考。
(3) 作者信息中的参与项目信息与作品所属项目信息的匹配
将数据准备阶段从作者信息中提取到的作者参与项目信息、作者参与各项目的时间区间与从作品信息中提取到的作品所属项目信息和作品发表时间进行匹配, 匹配的过程中加入历史认领数据中作者在作品发表时间区间内参与的项目信息作为参考。
(4) 作者信息中的简介类信息与作品中作者简介信息的匹配
将数据准备阶段从作者信息中提取到的作者性别、生年等信息与从作品信息中提取到的作者信息进行匹配。
当作品中的作者署名与作者别名信息的匹配成立时, 判断第二和第三个匹配条件, 如果这两个匹配条件中的任意一个可以从作品中获取并匹配, 则认为目标作者是作品的实际作者。如果第二、第三个匹配条件无法从作品中获取到, 则也认为目标作者是作品的实际作者, 并直接匹配第四个条件。第四个匹配条件如果可以从作品中提取到, 则作为最终匹配依据, 即目标作者的基本信息与作品中提取的基本信息一致则可向用户推荐, 否则, 认为目标作者并不是作品实际作者。如果第四个匹配条件无法从作品中获取则根据前三个条件的匹配情况进行判断。
作者-作品的匹配如图5所示:
4.4 推介认领
推介认领是整个作品认领机制中的一个必要的人工介入的过程, 作者认领与机器匹配的区别在于: 机器匹配的作用是在有名称冲突的数据背景下, 通过背景信息匹配的方式尽可能准确地检索到IR中可能的实际作者与所属作品的关联聚集。而人工的认领则可以最终确保作品信息与作者信息间的准确匹配关系。
在CSpace系统中对作品的推介采用两种方式: 通过E-mail的方式向目标作者发送认领信息链接; 在系统中的显著位置告诉匹配作者(系统用户)是否有需要认领的信息以及需要认领的作品数量, 相关作者登录系统后就可以看到相关的信息。匹配作者在认领信息界面中可以查看作品的详细信息, 以及机器匹配后认定的作者在知识作品中的贡献度排序信息, 如图6所示。作者只需要在确认信息无误的情况下提交表单就完成了认领操作。如果匹配作者认为信息不准确可以修改贡献排序信息再提交。如果推荐认领信息有误, 用户可以放弃认领, 系统会自动做出相关标识, 并继续匹配其他匹配作者或由管理员进行补充认领。
4.5 补充认领
补充认领是整个作品认领机制中的一个查缺补漏的过程。机器匹配中可能会出现未匹配到作品, 在认领的过程中可能出现长期无人认领或用户放弃认领的作品。为保证整个系统信息的完整性和准确性, 系统管理员可以在核实具体情况后代替实际作者进行补充认领。
此外, 每个作品应该只有一个贡献度排名第一的作者, 如果有超过一个作者在某作品的认领中将自己的贡献度排在第一就造成了认领冲突。这部分认领冲突的知识作品也需要由管理员进行裁决并进行补充认领来确认作者在作品中的贡献排序。
CSpace系统中, 在管理员的管理界面中有补充认领的入口, 管理员可以检索出需要做补充认领的信息并进行操作。管理员补充认领可以在实际作者认领的基础上确保作品归属和贡献度排序的完善。
完成作品认领后, 系统可以提供更多准确和完备的知识服务。
进行了作品认领后, 当需要检索某一作者的所有知识作品时, 系统会根据用户输入的作者关键词先匹配到某一作者, 然后用户可以根据提供的作者进行检索, 这样系统可以将目标作者发表的所有知识作品准确地检索出来, 如图7所示:
也可以实现将作者的所有作品都准确地聚集在实际作者名下, 如图8所示:
此外, 在开发知识作品的统计、知识图谱等功能时, 在基于作品认领的知识资源集中进行操作可以提供更准确的结果和更具实际意义的知识服务。
从目前该功能在已部署的CSpace系统中的使用情况来看, 在作者信息建立比较完善的系统中, 推介认领的准确率可以达到90%以上。但是, 目前的作品认领仍有很多需要完善的部分。比如, 在作者信息获取方面, 可以从更大的数据范围上分析获取到作者的相关信息, 用这些信息来丰富语料库的语料资源来源, 而不是仅仅限于IR内作者自己填写的信息; 在作品信息的获取方面可以从作品中提取主题等信息与作者在某个时间段内的关注主题信息进行匹配; 在整个功能的实现方面可以将IR中的作者、作品等知识信息构建本体, 通过语义推理的方式来替代和优化现有的匹配功能等。总的来说, 以后的完善方向将是更多的机器分析、更少的人工介入并不断提高机器匹配的准确性。
综上所述, 作者别名数据库和作者唯一标识机制以及作品认领服务功能从需求的角度上讲, 可以理顺IR系统中最主要的两个对象, 即实际作者信息与知识作品信息间的关联关系。当这两个对象的关联关系建立完善后就可以开发更准确的检索、统计、分析等功能。同时也更有利于知识作品的管理、利用和传播。因此, 作者别名信息的管理、作者唯一标识机制和作品认领服务是IR系统中一个很有意义的扩展应用, 它的开发和实现将更有利于IR系统的利用、管理和维护。
与IR的建设相同, IR中的各个扩展功能的建设也都将是一个需要长期完善的过程, 随着数据开放程度的增加以及获取方式的丰富也必将促使IR能够提供更多深层次的知识服务, 最终, IR将真正成为一个机构管理、利用、传播自己知识资产的重要组成部分。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|