Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (10): 37-46    DOI: 10.11925/infotech.2096-3467.2019.0252
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
一种适合多元异构图数据管理系统的交互分析框架 *
赵子豪1,2,沈志宏1()
1中国科学院计算机网络信息中心 北京 100190
2中国科学院大学 北京 100049
An Interactive Analysis Framework for Multivariate Heterogeneous Graph Data Management System
Zihao Zhao1,2,Zhihong Shen1()
1Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF(1861 KB)   HTML ( 5
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】提出一套交互分析框架, 以屏蔽多元图数据模型、管理系统、查询接口协议的差异性, 提供面向图数据的在线交互分析服务。【方法】对图数据管理系统的服务接口和前端分析需求进行抽象, 设计形成开放可扩展的交互协议和总体框架, 并实现数据适配、交互分析应用等软件模块。【结果】该框架有效屏蔽了Neo4j、Jena等系统的异构性, 并满足图数据浏览、探索以及路径发现等交互分析需求, 为图数据的相关应用提供了良好的基础。【局限】需要针对大规模数据进行优化和完善。【结论】本框架可有效实现图数据管理系统与分析应用的接口解耦, 具有较大的应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
赵子豪
沈志宏
关键词 图数据交互分析分析框架    
Abstract

[Objective] An open and scalable interactive analysis framework is proposed to shield the differences between multivariate graph data models, management systems, interfaces and protocols, and supply the online interactive analyzing service faced with graph data. [Methods] By abstracting the multi-analysis requirements and heterogeneous service interfaces, an open, scalable and interactive protocol is designed. Based on the protocol, an interactive framework is designed to implement the interactive module. [Results] This interactive analysis framework is well abstracted, shields the heterogeneity of graph management systems like Neo4j and Jena effectively, and provides a good foundation for front-end applications. [Limitations] Need to be optimized and adjusted on large-scale data. [Conclusions] The interactive analysis framework of heterogeneous knowledge graph has practical significance and deserves promotion.

Key wordsGraph Data    Interactive Analysis    Interactive Framework
收稿日期: 2019-03-05     
中图分类号:  TP393  
基金资助:*本文系国家重点研发计划项目“科学大数据管理系统”(2016YFB1000605);中国烟草总公司科技重大专项项目“烟草科研数据融合与关联挖掘关键技术研究”的研究成果之一(110201801019(SJ-01))
通讯作者: 沈志宏     E-mail: bluejoe@cnic.cn
引用本文:   
赵子豪,沈志宏. 一种适合多元异构图数据管理系统的交互分析框架 *[J]. 数据分析与知识发现, 2019, 3(10): 37-46.
Zihao Zhao,Zhihong Shen. An Interactive Analysis Framework for Multivariate Heterogeneous Graph Data Management System. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0252.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0252
查询语言 适用模型 特性对比
TRIPLE RDF模型 仅支持简单图模式的查询, 学习成本高。
RQL RDF模型 引入聚合操作, 与SQL语法较为相似, 学习成本稍高。
SeRQL RDF模型 与SPARQL标准较为接近, 学习成本低。
SPARQL RDF模型 被W3C推荐为标准, 语法与SQL相似, 学习成本低。
GraphQL 属性图模型 API型查询语言, 灵活性好, 但是学习成本较高。
Gremlin 属性图模型 图灵完备, 类似于编程语言, 较灵活, 但学习成本高; 主要用于遍历。
Cypher 属性图模型 语法与SQL相似, 比较成熟, 学习成本低。
PGQL 属性图模型 语法与SQL相似, 学习成本较低, 但目前使用者不多。
表1  主流图数据查询语言及适用模型总结
图数据管理系统 数据模型 支持查询语言 特性对比
Neo4j 属性图模型 Cypher, Gremlin 很成熟, 生态良好, 但不支持数据分片。
Titan 属性图模型 Gremlin 可挂接HBase等存储后端, 支持数据分片。
InfiniteGraph 属性图模型 Gremlin 支持数据分片, 免费版只支持100万节点。
Cosmos DB 属性图模型 Gremlin 基于云平台, 支持数据分片, 但不开源。
AllegroGraph RDF模型 SPARQL 支持数据分片, 免费版支持5 000万三元组。
Jena RDF模型 SPARQL 完全开源, 比较成熟, 开发使用便捷。
Virtuoso RDF模型 SPARQL 基于关系表实现RDF管理, 在大规模数据下性能不足。
Neptune 属性图/RDF Gremlin/SPARQL 基于云平台, 支持数据分片, 但不开源。
表2  图数据管理系统支持语言对比
图谱可视化分析系统 支持数据源 特性对比
RelFinder 支持SPARQL的RDF数据集 有一定分析能力, 但仅支持RDF数据的可视化。
Gephi CSV、GML等文件格式 分析能力较强, 与主流数据管理系统融合不够。
Bloom Neo4j Neo4j提供的可视化工具, 需要与Cypher语言结合实现分析功能。
Vis.js Gephi/DOT语言 JavaScript库, 部署方便; 无法显示大规模的图数据, 图分析功能不足。
Alchemy.js JSON JavaScript库, 部署方便, 仅提供节点和边的可视化。
Node-centric RDF Graph
Visualization
RDF 仅支持RDF数据, 对大度节点显示效果不好。
PGV RDF 仅支持RDF数据, 环状显示节点, 分析功能不足。
WebVOWL RDF 仅支持5MB以内的RDF数据文件。
表3  图数据可视化和分析工具对比
图1  通用协议作用示意图
图2  InteractiveGraph结构示意图
接口类别 接口名称 功能描述 输入 输出
1 连接类 1.1 Connect 连接当前数据源并初始化 当前数据源的元数据(规模、社区等)
2浏览类 2.1 LoadGraph 加载当前图的信息 当前位置 图中全部顶点和边
2.2 GetCommunityData 加载挖掘社区的信息 社区的轮廓及包含的顶点
2.3 GetNodesInfo 获取节点的描述信息 节点id 节点描述信息
2.4 GetNodeCategories 获取节点的类别(label) 类别及其描述
3探索类 3.1 GetNeighbours 获取节点邻边及邻居节点 节点id 节点邻边及邻居节点
4实体匹配类 4.1 FilterNodesByCategory 根据节点类别过滤节点集 节点id数组、指定类别 获取节点数组中属于指定类别的节点
4.2 Search 以关键词和限制数为条件搜索节点 关键词、限制数 指定字段中包含关键词的节点, 输出节点数不超过限制数
5路径查询类 5.1 FindRelations 在起止节点之间查找不超过最大深度的路径 起止节点id、最大深度 查询任务id
5.2 GetMoreRelations 从路径查询任务的缓冲中取出更多结果 查询任务id 查询得到的路径
5.3 StopFindRelations 停止查询任务 查询任务id 查询任务id及状态
表4  接口类别、功能及输入输出信息
图3  路径查询接口工作序列图
图4  InteractiveGraph框架
项目名称 托管地址 开发语言
InteractiveGraphServer-Neo4j适配器 https://github.com/grapheco/InteractiveGraph-neo4j Scala
InteractiveGraphServer-RDF适配器 https://github.com/grapheco/InteractiveGraph-RDF Java、Scala
AppFrame及应用 https://github.com/grapheco/InteractiveGraph Typescript
表5  项目托管地址列表
图5  RDF数据到属性图的适配示意图
图6  图谱交互式导航效果
图7  图谱步进式探索效果
图8  图谱关系发现效果
图9  InteractiveGraph应用中数据源的配置
图10  RelFinder在烟草知识图谱上的应用效果
[1] Angles R, Gutierrez C. An Introduction to Graph Data Management: Fundamental Issues and Recent Developments[A]// Fletcher G, Hidders J, Larriba-Pey J L, et al. Graph Data Management[M]. Springer International Publishing, 2018.
[2] What is a Graph Database? [EB/OL]. [ 2018- 12- 05]. .
[3] RDF Model and Syntax Specification[EB/OL]. [ 2018- 12- 02]. .
[4] Alocci D, Mariethoz J, Horlacher O , et al. Property Graph vs RDF Triple Store: A Comparison on Glycan Substructure Search[J]. PLoS One, 2015,10(12):e0144578.
[5] Neo4j Open Source NoSQL Graph Database[EB/OL]. [ 2018- 12- 08]. .
[6] Titan-Distributed Graph Database[EB/OL]. [ 2018- 12- 12]. .
[7] Microsoft Azure Cosmos DB[EB/OL]. [2019-01-11]..
[8] InfiniteGraph[EB/OL]. [2019-01-15]..
[9] Carroll J, Dickinson I, Dollin C, et al. Jena: Implementing the Semantic Web Recommendations [C]// Proceedings of the 13th International World Wide Web Conference on Alternate Track Papers & Posters. ACM, 2004: 74-83.
[10] Erling O, Mikhailov I . RDF Support in the Virtuoso DBMS[A]// Pellegrini T, Auer S, Tochtermann K, et al. Networked Knowledge-Networked Media[M]. Springer, 2009.
[11] AllegroGraph-Semantic Graph Database[EB/OL]. [2019-01-11]..
[12] Amazon Neptune-Fast , Reliable Graph Database Build for Cloud[EB/OL]. [2019-01-11]..
[13] Liu Y A, Stoller S D . Querying Complex Graphs [C]// Proceedings of the 8th International Symposium on Practical Aspects of Declarative Languages. Springer, 2006: 199-214.
[14] GraphQL[EB/OL]. [ 2019- 01- 16]. .
[15] Rodriguez M A. The Gremlin Graph Traversal Machine and Language (Invited Talk) [C]// Proceedings of the 15th Symposium on Database Programming Languages. ACM, 2015: 1-10.
[16] Francis N, Green A, Guagliardo P , et al. Cypher: An Evolving Query Language for Property Graphs [C]// Proceedings of the 2018 International Conference on Management of Data. ACM, 2018: 1433-1445.
[17] van Rest O, Hong S, Kim J , et al. PGQL: A Property Graph Query Language[C]// Proceedings of the 4th International Workshop on Graph Data Management Experiences & Systems. 2016: Article No. 7.
[18] Sintek M, Decker S . TRIPLE—A Query, Inference, and Transformation Language for the Semantic Web [C]// Proceedings of the 1st International Semantic Web Conference. 2002: 364-378.
[19] Karvounarakis G, Alexaki S, Christophides V , et al. RQL: A Declarative Query Language for RDF [C]// Proceedings of the 11th International Conference on World Wide Web. 2002: 592-603.
[20] Broekstra J, Kampman A . SeRQL: An RDF Query and Transformation, Language DRAFT [C]//Proceedings of the 3rd International Semantic Web Conference. 2004.
[21] SPARQL 1.1 Query Language [EB/OL].[2018-12-18]. .
[22] Palmer S, Rock I . Rethinking Perceptual Organization: The Role of Uniform Connectedness[J]. Psychonomic Bulletin & Review, 1994,1(1):29-55.
[23] Heim P, Hellmann S, Lehmann J , et al. RelFinder: Revealing Relationships in RDF Knowledge Bases [C]// Proceedings of the 4th International Conference on Semantic and Digital Media Technologies. 2009: 182-187.
[24] The Open Graph Viz Platform[EB/OL]. [2019-01-03]..
[25] Graph Visualization with Neo4j[EB/OL]. [2018-12-25]..
[26] Lohmann S, Link V, Marbach E , et al. WebVOWL: Web-based Visualization of Ontologies [C]// Proceedings of the 2014 International Conference on Knowledge Engineering and Knowledge Management. 2014: 154-158.
[27] Deligiannidis L, Kochut K J, Sheth A P. RDF Data Exploration and Visualization [C]// Proceedings of the ACM 1st Workshop on CyberInfrastructure: Information Management in eScience. ACM, 2007: 39-46.
[28] Sayers C . Node-Centric RDF Graph Visualization[J]. Mobile and Media Systems Laboratory, HP Labs, 2004.
[29] Vis.js[EB/OL]. [ 2018- 12- 30]. .
[30] Alchemy.js[EB/OL].[2019-01-18]. .
[1] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[2] 刘勘,杜好宸. 基于深度迁移网络的Twitter谣言检测研究 *[J]. 数据分析与知识发现, 2019, 3(10): 47-55.
[3] 蒋武轩,熊回香,叶佳鑫,安宁. 网络社交平台中社群标签动态生成研究 *[J]. 数据分析与知识发现, 2019, 3(10): 98-109.
[4] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[5] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[6] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[7] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[8] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[9] 洪闯,李贺,彭丽徽,许一明. 在线健康咨询平台信息服务质量的物元模型及可拓评价研究[J]. 数据分析与知识发现, 2019, 3(8): 41-52.
[10] 侯剑华,刘盼. 专利技术系统演化的技术熵测度模型与实证研究 *[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[11] 陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣. 基于互信息和逻辑回归的新词发现 *[J]. 数据分析与知识发现, 2019, 3(8): 105-113.
[12] 卢伟聪,徐健. 基于三分网络的网络用户评论情感分析 *[J]. 数据分析与知识发现, 2019, 3(8): 10-20.
[13] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[14] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[15] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn