Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (1): 15-26    DOI: 10.11925/infotech.2096-3467.2018.1354
  专题 本期目录 | 过刊浏览 | 高级检索 |
科技大数据知识图谱构建模型与方法研究*
王颖1(),钱力1,2,谢靖1,2,常志军1,2,孔贝贝1
1中国科学院文献情报中心 北京 100190
2中国科学院大学图书情报与档案管理系 北京 100190
Building Knowledge Graph with Sci-Tech Big Data
Ying Wang1(),Li Qian1,2,Jing Xie1,2,Zhijun Chang1,2,Beibei Kong1
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library, Information and Archives Management, University of Chinese Academy of Sciences, Beijing 100190, China
全文: PDF(3962 KB)   HTML ( 8
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】研究从科技大数据中提取结构化知识、构建学术知识网络的模型与方法, 支持智能知识服务产品的研发提升精准知识发现能力。【方法】提出科技大数据知识图谱的构建模型和技术架构, 在汇聚和融合科技大数据知识资源的基础上, 以大数据平台分布式存储和高性能计算为支撑环境, 详细设计和实现科研实体知识抽取、实体对齐和关系发现、知识融合与语义丰富化、语义化存储、质量管理等知识图谱构建技术。【结果】构建3亿实体和11亿关系的科技大数据知识图谱, 有效支撑科技大数据知识发现平台和“慧科研”智能随身助手的服务。【局限】由于数据的规模和复杂性, 知识图谱的质量管理仍需花费大量的人力, 实体对齐的准确度也有待于提高。【结论】本文提出的知识图谱建设方案适用于科技大数据的知识管理和深加工, 有助于科技知识的有效 利用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王颖
钱力
谢靖
常志军
孔贝贝
关键词 科技大数据知识图谱本体知识抽取    
Abstract

[Objective] This paper tries to extract information from Sci-Tech big data and build an academic knowledge network, aiming to develop smart knowledge services. [Methods] We proposed an Ontology schema and a framework to contruct knowledge graph based on the distributed storage and high-performance computing of big data platform. The proposed model helped us extract and align research entities for relationship discovery. We also adopted the knowledge merging and enrichment, semantic storage and quality management techniques. [Results] We created a huge knowledge graph including more than 300 million entities and 1.1 billion relations. It also supported knowledge discovery platform and smart personal research assistant apps for scientific big data. [Limitations] More research is needed to improve the quality management of knowledge graph, as well as the precision of entity alignment. [Conclusions] The proposed method improve the knowledge management of scientific and technology big data.

Key wordsSci-Tech Big Data    Knowledge Graph    Ontology    Knowledge Extraction
收稿日期: 2018-12-03     
基金资助:*本文系国家社会科学青年基金项目“基于关联数据的学术资源深度挖掘方法研究”(项目编号: 15CTQ006)的研究成果之一
引用本文:   
王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
Ying Wang,Li Qian,Jing Xie,Zhijun Chang,Beibei Kong. Building Knowledge Graph with Sci-Tech Big Data. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1354.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1354
[1] Singhal A. Introducing the Knowledge Graph: Things, Not Strings[EB/OL]. [2013-04-10]. .
[2] Wu W, Li H, Wang H, et al.Probase: A Probabilistic Taxonomy for Text Understanding[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2012: 481-492.
[3] Baidu Open Knowledge Graph[EB/OL]. [2018-08-16]..
[4] 张阔. 从搜索信息到搜索知识——技术架构[EB/OL]. [2013-03-26]. .
[4] (Zhang Kuo. From Information Search to Knowledge Search — Technology Infrastructure[EB/OL]. [2013-03-26].
[5] 王元卓, 贾岩涛, 赵泽亚, 等. OpenKN-网络大数据时代的知识计算引擎[J]. 中国计算机学会通讯, 2014, 10(11): 30-35.
[5] (Wang Yuanzhuo, Jia Yantao, Zhao Zeya, et al.OpenKG-Knowledge Computing Engine in the Era of Network Big Data[J]. Communications of the Chinese Computer Federation, 2014, 10(11): 30-35.)
[6] Zhu J G, Wang H F, Shen B J. Software. Zhishi.Schema: A Software Programming Taxonomy Derived from Stackoverflow[C]// Proceedings of the 14th International Semantic Web Conference (ISWC 2015), Bethlehem, Pennsylvania, USA. 2015: 1-4.
[7] Introduction to CN-Probase [EB/OL]. [2017-11-29]. .
[8] 国务院. 新一代人工智能发展规划[R]. [2017-07-08]. 新一代人工智能发展规划[R]. [2017-07-08]. .
[8] (State Council.New Generation Artificial Intelligence Development Plan[R]. [2017-07-08]. New Generation Artificial Intelligence Development Plan[R]. [2017-07-08].
[9] 钱力, 谢靖, 常志军, 等. 基于科技大数据的智能知识服务体系研究设计[J]. 数据分析与知识发现. DOI: 10.11925/infotech.2096-3467.2018.1364.
[9] (Qian Li, Xie Jing, Chang Zhijun, et al.Designing Smart Knowledge Services with Sci-Tech Big Data[J]. Data Analysis and Knowledge Discovery. DOI: 10.11925/infotech.2096-3467. 2018.1364.)
[10] Springer Nature.SN SciGraph [EB/OL]. [2018-08-18]..
[11] Allen B P.The Roll of Metadata in the Second Machine Age [EB/OL]. [2017-02-02]..
[12] Taylor & Francis.Wizdom.ai [EB/OL].[2018-05-05]. .
[13] Tang J, Zhang J, Yao L M, et al.AMiner: Extraction and Mining of Academic Social Networks[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). Las Vegas, Nevada, USA. New York, ACM, 2008:990-998.
[14] Acemap Knowledge Graph[EB/OL]. [2018-05-05]..
[15] 国家科技文献中心. NSTL统一文献元数据标准3.0[EB/OL]. [2017-10-18]. .
[15] (National Science and Technology Library. Unified MetaData Standard for Scientific Literature Version3.0 [EB/OL]. [2017-10-18].
[1] 孔贝贝,谢靖,钱力,常志军,吴振新. 科技大数据增值丰富化方法研究与工具研发 *[J]. 数据分析与知识发现, 2019, 3(7): 113-122.
[2] 邓诗琦,洪亮. 面向智能应用的领域本体构建研究*——以反电话诈骗领域为例[J]. 数据分析与知识发现, 2019, 3(7): 73-84.
[3] 杨海慈,王军. 宋代学术师承知识图谱的构建与可视化[J]. 数据分析与知识发现, 2019, 3(6): 109-116.
[4] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[5] 高广尚. 用户画像构建方法研究综述*[J]. 数据分析与知识发现, 2019, 3(3): 25-35.
[6] 丁晟春,侯琳琳,王颖. 基于电商数据的产品知识图谱构建研究*[J]. 数据分析与知识发现, 2019, 3(3): 45-56.
[7] 钱力,谢靖,常志军,吴振新,张冬荣. 基于科技大数据的智能知识服务体系研究设计*[J]. 数据分析与知识发现, 2019, 3(1): 4-14.
[8] 胡吉颖,谢靖,钱力,付常雷. 基于知识图谱的科技大数据知识发现平台建设*[J]. 数据分析与知识发现, 2019, 3(1): 55-62.
[9] 何有世,何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[10] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[11] 庞贝贝,苟娟琼,穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
[12] 丁晟春,刘梦露,傅柱. 概念设计中基于知识流的多维设计知识统一建模技术研究*[J]. 数据分析与知识发现, 2018, 2(2): 11-19.
[13] 沈志宏,姚畅,侯艳飞,吴林寰,李跃鹏. 关联大数据管理技术: 挑战、对策与实践*[J]. 数据分析与知识发现, 2018, 2(1): 9-20.
[14] 涂海丽,唐晓波. 基于标签的商品推荐模型研究*[J]. 数据分析与知识发现, 2017, 1(9): 28-39.
[15] 陈二静,姜恩波. 文本相似度计算方法研究综述[J]. 数据分析与知识发现, 2017, 1(6): 1-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn