Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (3): 69-77     https://doi.org/10.11925/infotech.2096-3467.2018.1371
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于分布式技术的科技文献大数据平台的建设研究*
常志军1,2(),钱力1,2,谢靖1,2,吴振新1,2,张鹄1,于倩倩1,王颖1,王永吉3
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3中国科学院软件研究所 北京 100190
Big Data Platform for Sci-Tech Literature Based on Distributed Technology
Chang Zhijun1,2(),Qian Li1,2,Xie Jing1,2,Wu Zhenxin1,2,Zhang Hu1,Yu Qianqian1,Wang Ying1,Wang Yongji3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library Information and Archives Management, University of Chinese Academy of Sciences, Beijing 100190, China
3Institute of Software, Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (1493 KB)   HTML ( 25
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】 以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了“5+2”整体架构的科技文献大数据平台。【结果】 建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】 该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】 本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
常志军
钱力
谢靖
吴振新
张鹄
于倩倩
王颖
王永吉
关键词 大数据技术分布式存储分布式计算共租部署数据仓库    
Abstract

[Objective] This research addresses the issues facing the storage and online access of massive text-level documents, the governance of large-scale data, and the low service performance, aiming to build a big data platform for sci-tech literature. [Methods] First, we analyzed the characteristics of distributed big data services for science and technology. Then, we adopted a co-tenant deployment strategy based on the servers and networks. Finally, we designed a big data platform for sci-tech literature with a “5+2” overall architecture. [Results] We established a PB-level big data platform for sci-tech literature. It has data storage capacity of 200TB and collected 320 million document entities as well as 6 billion entity relationship. The metadata processing performance based on MapReduce was increased by 3 times, and then formed the knowledge service architecture based on new technology. [Limitations] We did not adequately process streaming data, thus the system cannot offer prompt response for new data. [Conclusions] The new platform supports the knowledge discovery services of National Science Library, Chinese Academy of Sciences, as well as the intelligent scientific research system. It has good online services and improves the processing and service capabilities of sci-tech literature.

Key wordsBig Data Technology    Distributed Storage    Distributed Computing    Co-Tenant Deployment    Data Warehouse
收稿日期: 2018-12-04      出版日期: 2021-04-12
ZTFLH:  TP311  
  G250  
通讯作者: 常志军     E-mail: changzj@mail.las.ac.cn
引用本文:   
常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
Chang Zhijun,Qian Li,Xie Jing,Wu Zhenxin,Zhang Hu,Yu Qianqian,Wang Ying,Wang Yongji. Big Data Platform for Sci-Tech Literature Based on Distributed Technology. Data Analysis and Knowledge Discovery, 2021, 5(3): 69-77.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1371      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I3/69
Fig.1  科技文献大数据平台整体架构
Fig.2  日志预警系统流程
序号 大数据平台软件系统 部署模式 服务器标识 集群规模(台)
1 分布式文件系统(HDFS) 共租部署 S1…15 15
2 分布式小文件存储系统(FastDFS) 共租部署 S11…15 5
3 分布式数据仓库系统 共租部署 S1…15 15
4 分布式
计算引擎
MapReduce 共租部署 S1…15 15
5 Spark 共租部署 S16…24 9
6 分布式搜索引擎系统 共租部署 S16...24 9
7 微服务系统 独立部署 S25、26 2
8 分布式高速缓存系统 共租部署 S25、26 2
9 收割服务器群 共租部署 S10、11 2
Table 1  科技文献大数据平台软件共租策略
Fig.3  科技文献大数据平台网络拓扑图
Fig.4  科技文献大数据平台子系统构成图
序号 文献类型 数据量
1 论文 2.3亿+
2 专利 9千万+
3 报告 70万+
4 标准 30万+
5 课件 5万+
6 图书 100万+
7 政策 60万+
8 特色数据 200万+
Table 2  科技文献大数据平台主要实体汇聚数据量统计
Fig.5  科技大数据平台支撑的智能知识服务产品示意图
[1] 程玉, 胡凡刚, 吴运明. 教育大数据价值体现、问题反思与发展路径[J]. 软件导刊, 2020,19(5):281-284.
[1] ( Cheng Yu, Hu Fangang, Wu Yunming. Reflections on the Values, Problems and Development Path of Big Data on Education[J]. Software Guide, 2020,19(5):281-284.)
[2] 陶波. 基于大数据平台的医疗健康数据分析与应用模式研究[D]. 武汉: 华中科技大学, 2019.
[2] ( Tao Bo. Research on Medical Health Data Analysis and Application Model Based on Big Data Platform[D]. Wuhan: Huazhong University of Science & Technology, 2019.)
[3] 刘彦平. 电商企业与大数据营销[J]. 中国市场, 2016(40):28-29, 36.
[3] ( Liu Yanping. E-Commerce Business and Big Data Marketing[J]. China Market, 2016(40):28-29, 36.)
[4] 张应飞. 基于金融大数据的互联网信贷发展风险探析[J]. 经济研究参考, 2014(29):74-76.
[4] ( Zhang Yingfei. Analysis on the Risk of Internet Credit Development Based on Financial Big Data[J]. Review of Economic Research, 2014(29):74-76.)
[5] 曾文, 车尧. 科技大数据的情报分析技术研究[J]. 情报科学, 2019,37(3):93-96.
[5] ( Zeng Wen, Che Yao. Research on Information Analysis Technology on Science and Technology Big Data[J]. Information Science, 2019,37(3):93-96.)
[6] 杨思洛, 董嘉慧. 国内外智慧图书馆研究热点及发展趋势探究[J]. 现代情报, 2020,40(11):167-177.
[6] ( Yang Siluo, Dong Jiahui. Research on Research Hotspots and Development Trends of Smart Libraries at Domestic and Abroad[J]. Journal of Modern Information, 2020,40(11):167-177.)
[7] 李洁. 数据驱动下数字图书馆知识发现服务创新模式与策略研究[D]. 长春:吉林大学, 2020.
[7] ( Li Jie. Data-Driven Knownledge Discovery Innovation in Digital Library: Modes and Strategies[D]. Changchun: Jilin University, 2020.)
[8] Wang Y, Ma C, Wang W, et al. An Approach of Fast Data Manipulation in HDFS with Supplementary Mechanisms[J]. Journal of Supercomputing, 2015,71(5):1736-1753.
[9] 余庆. 分布式文件系统FastDFS架构剖析[J]. 程序员, 2010(11):63-65.
[9] ( Yu Qing. Analysis of Distributed File System FastDFS Architecture[J]. Programmer, 2010(11):63-65.)
[10] 杜娟, 苏秋月. 基于DAG的Hive数据溯源方法[J]. 信息技术与网络安全, 2020,39(11):31-37.
[10] ( Du Juan, Su Qiuyue. Hive Data Provenance Method Based on DAG[J]. Information Technology and Network Security, 2020,39(11):31-37.)
[11] 张学亮, 陈金勇, 陈勇. 基于Hadoop云计算平台的海量文本处理研究[J]. 无线电通信技术, 2014,40(1):54-57.
[11] ( Zhang Xueliang, Chen Jinyong, Chen Yong. Research on Large-scale Text Processing Based on Hadoop Platform[J]. Radio Communications Technology, 2014,40(1):54-57.)
[12] 李文栋. 基于Spark的大数据挖掘技术的研究与实现[D]. 济南:山东大学, 2015.
[12] ( Li Wendong. The Research and Implementation of Mining Large Data Based on Spark[D]. Jinan: Shandong University, 2015.)
[13] 高劲松, 刘洪秋. 基于知识图谱的国内外关联数据研究分析[J]. 情报科学, 2018,36(3):117-124.
[13] ( Gao Jinsong, Liu Hongqiu. Research on the Linked Data at Domestic and Abroad Based on Knowledge Mapping[J]. Information Science, 2018,36(3):117-124.)
[14] 张树新, 吴海斌, 蒙辉, 等. 基于SpringCloud的航运EDI平台IT生态环境设计[J]. 中国储运, 2018(2):100-103.
[14] ( Zhang Shuxin, Wu Haibin, Meng Hui, et al. Design of IT Eco-environment for Shipping EDI Platform Based on SpringCloud[J]. China Storage & Transport, 2018(2):100-103.)
[15] 赵宇. 大数据平台运行监控系统的研究与应用[D]. 北京: 北京交通大学, 2016.
[15] ( Zhao Yu. Research and Application of Big Data Platform Operation Monitoring System[D]. Beijing: Beijing Jiaotong University, 2016.)
[1] 沈志宏,赵子豪,王海波. 以图为中心的新型大数据技术栈研究 *[J]. 数据分析与知识发现, 2020, 4(7): 50-65.
[2] 翟东升, 蔡力伟, 张杰, 冯秀珍. 基于专利数据仓库的技术功效图挖掘方法研究——以3D打印技术为例[J]. 现代图书情报技术, 2015, 31(7-8): 131-138.
[3] 周静, 赵英, 杨欣. 基于CWM的ETL元数据库系统模型的设计[J]. 现代图书情报技术, 2011, 27(1): 88-93.
[4] 赵华茗. 搭建基于云计算的开源海量数据挖掘平台[J]. 现代图书情报技术, 2010, 26(10): 76-81.
[5] 陈权,杨晓江. 数字资源集合管理系统的设计与实现[J]. 现代图书情报技术, 2009, 25(5): 86-91.
[6] 齐玮,王秀芳,王翔宇 . 军队院校图书馆数据仓库设计[J]. 现代图书情报技术, 2006, 1(8): 77-79.
[7] 王兰成,敖毅,曾琼 . 异构多信息源组织与集成技术的研究现状及其进展*[J]. 现代图书情报技术, 2006, 1(3): 68-71.
[8] 李康. 数据仓库在证券行业中的应用研究[J]. 现代图书情报技术, 2005, 21(12): 71-73.
[9] 金莹,邓三鸿,李勇. 决策支持技术在电子政务中的应用*——以大社保领域为例   [J]. 现代图书情报技术, 2004, 20(9): 66-69.
[10] 万里云. 数据仓库技术以及在证券业应用展望[J]. 现代图书情报技术, 2002, 18(4): 64-68.
[11] 金岩. 数据仓库与图书馆的发展[J]. 现代图书情报技术, 2000, 16(3): 13-16.
[12] 张述林,陈敏. 数据仓库技术及其在图书馆决策中的应用[J]. 现代图书情报技术, 2000, 16(1): 27-30.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn