Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (1): 15-26     https://doi.org/10.11925/infotech.2096-3467.2018.1354
  专题 本期目录 | 过刊浏览 | 高级检索 |
科技大数据知识图谱构建模型与方法研究*
王颖1(),钱力1,2,谢靖1,2,常志军1,2,孔贝贝1
1中国科学院文献情报中心 北京 100190
2中国科学院大学图书情报与档案管理系 北京 100190
Building Knowledge Graph with Sci-Tech Big Data
Ying Wang1(),Li Qian1,2,Jing Xie1,2,Zhijun Chang1,2,Beibei Kong1
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library, Information and Archives Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (3962 KB)   HTML ( 36
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】研究从科技大数据中提取结构化知识、构建学术知识网络的模型与方法, 支持智能知识服务产品的研发提升精准知识发现能力。【方法】提出科技大数据知识图谱的构建模型和技术架构, 在汇聚和融合科技大数据知识资源的基础上, 以大数据平台分布式存储和高性能计算为支撑环境, 详细设计和实现科研实体知识抽取、实体对齐和关系发现、知识融合与语义丰富化、语义化存储、质量管理等知识图谱构建技术。【结果】构建3亿实体和11亿关系的科技大数据知识图谱, 有效支撑科技大数据知识发现平台和“慧科研”智能随身助手的服务。【局限】由于数据的规模和复杂性, 知识图谱的质量管理仍需花费大量的人力, 实体对齐的准确度也有待于提高。【结论】本文提出的知识图谱建设方案适用于科技大数据的知识管理和深加工, 有助于科技知识的有效 利用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王颖
钱力
谢靖
常志军
孔贝贝
关键词 科技大数据知识图谱本体知识抽取    
Abstract

[Objective] This paper tries to extract information from Sci-Tech big data and build an academic knowledge network, aiming to develop smart knowledge services. [Methods] We proposed an Ontology schema and a framework to contruct knowledge graph based on the distributed storage and high-performance computing of big data platform. The proposed model helped us extract and align research entities for relationship discovery. We also adopted the knowledge merging and enrichment, semantic storage and quality management techniques. [Results] We created a huge knowledge graph including more than 300 million entities and 1.1 billion relations. It also supported knowledge discovery platform and smart personal research assistant apps for scientific big data. [Limitations] More research is needed to improve the quality management of knowledge graph, as well as the precision of entity alignment. [Conclusions] The proposed method improve the knowledge management of scientific and technology big data.

Key wordsSci-Tech Big Data    Knowledge Graph    Ontology    Knowledge Extraction
收稿日期: 2018-12-03      出版日期: 2019-03-04
基金资助:*本文系国家社会科学青年基金项目“基于关联数据的学术资源深度挖掘方法研究”(项目编号: 15CTQ006)的研究成果之一
引用本文:   
王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
Ying Wang,Li Qian,Jing Xie,Zhijun Chang,Beibei Kong. Building Knowledge Graph with Sci-Tech Big Data. Data Analysis and Knowledge Discovery, 2019, 3(1): 15-26.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1354      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I1/15
[1] Singhal A. Introducing the Knowledge Graph: Things, Not Strings[EB/OL]. [2013-04-10]. .
[2] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2012: 481-492.
[3] Baidu Open Knowledge Graph[EB/OL]. [2018-08-16]..
[4] 张阔. 从搜索信息到搜索知识——技术架构[EB/OL]. [2013-03-26]. .
[4] (Zhang Kuo. From Information Search to Knowledge Search — Technology Infrastructure[EB/OL]. [2013-03-26].
[5] 王元卓, 贾岩涛, 赵泽亚, 等. OpenKN-网络大数据时代的知识计算引擎[J]. 中国计算机学会通讯, 2014, 10(11): 30-35.
[5] (Wang Yuanzhuo, Jia Yantao, Zhao Zeya, et al.OpenKG-Knowledge Computing Engine in the Era of Network Big Data[J]. Communications of the Chinese Computer Federation, 2014, 10(11): 30-35.)
[6] Zhu J G, Wang H F, Shen B J. Software. Zhishi.Schema: A Software Programming Taxonomy Derived from Stackoverflow[C]// Proceedings of the 14th International Semantic Web Conference (ISWC 2015), Bethlehem, Pennsylvania, USA. 2015: 1-4.
[7] Introduction to CN-Probase [EB/OL]. [2017-11-29]. .
[8] 国务院. 新一代人工智能发展规划[R]. [2017-07-08]. 新一代人工智能发展规划[R]. [2017-07-08]. .
[8] (State Council.New Generation Artificial Intelligence Development Plan[R]. [2017-07-08]. New Generation Artificial Intelligence Development Plan[R]. [2017-07-08].
[9] 钱力, 谢靖, 常志军, 等. 基于科技大数据的智能知识服务体系研究设计[J]. 数据分析与知识发现. DOI: 10.11925/infotech.2096-3467.2018.1364.
[9] (Qian Li, Xie Jing, Chang Zhijun, et al.Designing Smart Knowledge Services with Sci-Tech Big Data[J]. Data Analysis and Knowledge Discovery. DOI: 10.11925/infotech.2096-3467. 2018.1364.)
[10] Springer Nature.SN SciGraph [EB/OL]. [2018-08-18]..
[11] Allen B P.The Roll of Metadata in the Second Machine Age [EB/OL]. [2017-02-02]..
[12] Taylor & Francis.Wizdom.ai [EB/OL].[2018-05-05]. .
[13] Tang J, Zhang J, Yao L M, et al.AMiner: Extraction and Mining of Academic Social Networks[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). Las Vegas, Nevada, USA. New York, ACM, 2008:990-998.
[14] Acemap Knowledge Graph[EB/OL]. [2018-05-05]..
[15] 国家科技文献中心. NSTL统一文献元数据标准3.0[EB/OL]. [2017-10-18]. .
[15] (National Science and Technology Library. Unified MetaData Standard for Scientific Literature Version3.0 [EB/OL]. [2017-10-18].
[1] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[2] 沈科杰, 黄焕婷, 化柏林. 基于公开履历数据的人物知识图谱构建*[J]. 数据分析与知识发现, 2021, 5(7): 81-90.
[3] 阮小芸,廖健斌,李祥,杨阳,李岱峰. 基于人才知识图谱推理的强化学习可解释推荐研究*[J]. 数据分析与知识发现, 2021, 5(6): 36-50.
[4] 李贺,刘嘉宇,李世钰,吴迪,金帅岐. 基于疾病知识图谱的自动问答系统优化研究*[J]. 数据分析与知识发现, 2021, 5(5): 115-126.
[5] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[6] 石湘,刘萍. 基于知识元语义描述模型的领域知识抽取与表示研究 *——以信息检索领域为例[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[7] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[8] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[9] 陈仕吉, 邱均平, 余波. 基于Overlay图谱的图情领域大数据主题分析*[J]. 数据分析与知识发现, 2021, 5(10): 51-59.
[10] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[11] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[12] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[13] 吕华揆,洪亮,马费成. 金融股权知识图谱构建与应用*[J]. 数据分析与知识发现, 2020, 4(5): 27-37.
[14] 孙鑫瑞,孟雨,王文乐. 基于知识图谱与目标检测的微博交通事件识别*[J]. 数据分析与知识发现, 2020, 4(12): 136-147.
[15] 朱超宇, 刘雷. 基于知识图谱的医学决策支持应用综述*[J]. 数据分析与知识发现, 2020, 4(12): 26-32.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn