数据分析与知识发现  2022, Vol. 6 Issue (7): 1-11
1中国科学院成都文献情报中心 成都 610041
2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3四川大学公共管理学院 成都 610065
Graph Databases for Complex Network Analysis
Liu Chunjiang1,2(),Li Shuying1,Hu Hanlin3,Fang Shu1,2
1Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041, China
2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
3School of Public Administration, Sichuan School of Economics and Management, University, Chengdu 610065, China
目的】作为存储网络数据的主流工具,图数据库在复杂网络分析中的研究与应用不断丰富,本文系统梳理了图数据库在复杂网络领域的应用进展和研究趋势。【文献范围】 以Web of Science核心数据库、Scopus、CNKI数据库为检索中英文文献的来源,调研了相关文献中涉及的15个图数据库及开源网站,详细整理了21个应用案例,精读综述了14篇研究论文。【方法】对比分析国内外主流图数据库,尝试探讨最新的图数据库解决方案在复杂网络分析中的应用,包括中心性、路径查找、链路预测、社区检测和图可视化等。【结果】图数据库已经成为复杂网络分析与大数据挖掘的重要分析工具与研究手段,不仅是复杂网络分析的一站式解决方案,还与图计算引擎等工具结合使用。【局限】 图数据库应用场景非常多,本文未能完整覆盖,仅选取2~3个有代表性的案例进行阐述。【结论】图数据库对于查询、表示和挖掘网络数据效果显著,能较为直观地分析和发现图结构中有意义的模式或结构,其对数据密集型的多维特征的呈现更接近现实,是未来挖掘隐含关系的重要工具。

关键词 知识图谱图数据库复杂网络    

[Objective] This paper systematically reviews the progress and trends of graph database research and applications for complex network analysis. [Coverage] We searched the Web of Science, Scopus, and CNKI database for Chinese and English literature. A total of 15 graph databases and open-source packages, 21 practical cases, and 14 research papers were retrieved. [Methods] First, we compared the mainstream graph database products from China and abroad. Then, we explored the latest solutions for complex network analysis, including algorithms (such as centrality, path finding, link prediction, and community detection), graph visualization, performance and related applications. [Results] The graph database has become an important analysis tool and research method for complex network analysis and big data mining. They also work closely with graph computing engines for complex network analysis. [Limitations] This paper only examined a few representative cases. [Conclusions] The graph database could effectively query, represent and analyze complex network data for their patterns or structures. Their presentation of multi-dimensional data is crucial for mining implicit relationships.

Key wordsKnowledge Graph    Graph Database    Complex Network
收稿日期: 2021-10-14      出版日期: 2021-12-31
ZTFLH:  TP391  
通讯作者: 刘春江,ORCID:0000-0001-8934-339X     E-mail:
刘春江, 李姝影, 胡汗林, 方曙. 图数据库在复杂网络分析中的研究与应用进展*[J]. 数据分析与知识发现, 2022, 6(7): 1-11.
Liu Chunjiang, Li Shuying, Hu Hanlin, Fang Shu. Graph Databases for Complex Network Analysis. Data Analysis and Knowledge Discovery, 2022, 6(7): 1-11.
Fig.1  DB-Engines数据库模型流行度(2013-2021.9)
对比项目 简单图 多关系 多模 图数据库
节点类型 1种 1种 1种或更多 1种或更多
边类型 1种 1种或更多 1种 1种或更多
原始来源信息 外部 外部 外部 内部
支持的最大节点数量(个) <106 <106 <106 >109
代表软件 NetworkX, Iggraph Ucinet, Statnet, PNet Neo4j, Titan, DSE Graph
Table 1  图模型与多关系、多模对比[9]
名称 查询语言 支持接口 集成算法
GDB[10] Gremlin & Cypher HTTP REST, Java, Python,.NET,
GO, Node.js
HugeGraph[11] Gremlin RESTful API, Java Client, Gremlin
BGraph[12] Gremlin HTTP API, SDK 支持特色的高性能图算法
TGDB[13] Cypher 暂无数据 支持PageRank、社群发现、相似度计算、模糊子图匹配等社群发现算法
GeaBase[14] 自研查询语言 GeaBase 客户端(Java) 支持社区、推荐等算法
Nebula Graph[15] nGQL C++, GO, Python, Java 支持PageRank、社区检测、最短路径、介数中心性等多种算法
TuGraph[16] OpenCypher HTTP API 支持PageRank、路径、连通、中心性、社区等多种算法
Table 2  国内主流图数据库
名称 查询语言 支持接口 集成算法
Neo4j[17] Cypher Java, Python, JavaScript,.NET, GO, REST, HTTP API 支持Centrality、Community Detection、Similarity、
Path Finding、Link Prediction等多类算法
TigerGraph[18] GSQL REST API, Remote GSQL Client(Running by Java) 支持Path、Centrality、Community、Similarity、
Neptune[19] Gremlin & SPARQL HTTP REST, Java, Python,.NET, Node.js
JanusGraph[20] Gremlin Java, Python,.NET 支持PageRank等算法
ArangoDB[21] AQL HTTP API, Java, JavaScript, PHP, GO,
Python, C#, Scala, C++, R等
AllegroGraph[22] SPARQL & Prolog Java、Python、Lisp、HTTP 支持多种中心性算法
OrientDB[23] SQL Java, Python, PHP, C++, JavaScript等 支持SB-Tree、Hash、Lucene Full Text、Lucene
Table 3  国外主流图数据库
应用场景 类型 图算法/图布局 具体描述
中心性分析[25] 基于相邻节点 PageRank、ArticleRank、Eigenvector Centrality等 基于相邻节点的重要性计算当前节点的重要性
基于节点自身 度中心性(Degree Centrality) 基于与相邻节点直接相连的关系数量计算当前节点的重要性
接近中心性(Closeness Centrality) 基于与其他节点之间的平均距离计算当前节点的重要性
中介中心性(Between Centrality) 基于当前节点出现在任意两个节点的最短路径中的次数计算当前节点的重要性
路径查找[26] 路径遍历 广度优先搜索(Breadth First Search) 通过逐层遍历所有相邻节点从而找到最短路径
深度优先搜索(Depth First Search) 对起始节点的所有分支逐个遍历
固定路径查找 最短路径(Dijkstra、A*、Yen’s) 计算两个节点之间的最短路径
所有节点对最短路径(All Pairs Shortest Path) 计算所有节点之间的最短路径
单源最短路径(Single Source Shortest Path) 计算源节点与其他可达节点之间的最短路径
最小权重生成树(Minimum Weight Spanning Tree) 计算生成树中边权值和最小情况下的路径
非固定路径查找 随机游走(Random Walk) 在指定路径长度内,计算从一个节点开始按照随机或非随机的方式选择下一个节点的路径
链接预测[26] 基于邻居节点 所有邻居(Total Neighbors) 基于两个节点的邻居节点集合并集,计算两个节点的紧密度
连接偏好(Preferential Attachment) 对节点连接数有偏好,因此将两个节点的邻居节点集合数量相乘,计算两个节点的紧密度
基于共有邻居 共有邻居(Common Neighbors) 基于两个节点的邻居节点集合交集,计算两个节点的紧密度
资源优化(Resource Allocation) 基于共有邻居的相邻节点集合,并对集合数量进行非线性归一化处理,计算两个节点的紧密度
AA(Adamic Adar) 基于共有邻居的相邻节点集合,未对集合数量进行非线性归一化处理,计算两个节点的紧密度
基于共有社区 共有社区(Same Community) 基于社区检测算法判断两个节点是否属于相同社区,计算两个节点的紧密度
社区检测[27] 基于模块度 鲁汶(Louvain) 基于社区的模块度进行社区划分
基于网络动力学 标签传播(Label Propagation) 基于节点标签的传播进行社区划分
基于簇 弱联通社区(Weakly Connected Components) 在无向图中将任意节点间均存在路径的集合形成簇,计算出社区中所有的簇
强联通簇(Strongly Connected Components) 在有向图中将任意节点间均存在双向路径的集合形成簇,计算出社区中所有的簇
基于三角形 三角计数(Triangle Count) 计算社区中相连成三角形的节点集合
局部聚类系数(Local Clustering Coefficient) 基于节点的三角形和度这两个数值,计算节点的聚类系数
图可视化[28] 集成可视化 图布局类型比较简单,以力导向布局为主 通过图数据库集成的内置可视化工具
在线可视化 图布局类型最为丰富,包括力导向、地图、圆形、
Table 4  复杂网络分析领域中的重要图算法/图布局
应用场景 主要算法 图数据库
度中心性、中介中心性、接近中心性、特征向量中心性 Neo4j
度中心性、紧密中心性、中介中心性、特征向量中心性 HugeGraph
中心性、PageRank OrientDB
分析药品处方模式[32] 度中心性、中介中心性 Neo4j
侦查银行欺诈问题[33] 中心性、PageRank TigerGraph
Table 5  图数据库在中心性分析中的应用
应用场景 主要算法 图数据库
分析城市转供电方案[34] 广度优先搜索、深度优先搜索 Neo4j
Dijkstra算法 Neo4j
分析国家交通网络[36] Yen的K条最短路径算法(KSP) Neo4j
分析生物医学网络[37] 最短路径算法 OrientDB
Table 6  图数据库在路径查找问题中的应用
应用场景 主要算法 图数据库
结合网络结构相似度预测社会关系[38] Common Neighbors Neo4j
基于链路预测的生物医学知识发现[39] Adamic-Adar Neo4j
结合深度强化学习构建链路预测模型[40] Common Neighbors、Adamic-Adar OrientDB
基于链路预测的作者消歧[41] Common Neighbors、Adamic-Adar Neo4j
Table 7  图数据库在链路预测问题中的应用
应用场景 主要算法 图数据库
基于社区检测算法的在线金融欺诈检测[42] Louvain、BMLPA Neo4j
基于改进关系权重的科研社区挖掘[43] Louvain Neo4j
基于社区检测算法的社交网络分析[44] Louvain、Edge Betweeness、Walktrap、CNM Neo4j
基于社区检测算法的道路交通网络分析[45] Louvain Neo4j
Table 8  图数据库在社区检测问题中的应用
应用场景 应用方式 图可视化工具 图数据库
知识关联可视化[47] 在线可视化 Echarts.js Neo4j
面向医学知识图谱的可视化[48] 集成可视化 Neo4j Neo4j
生物医学数据检索及可视化[49] 在线可视化 Cytoscape.js Neo4j
Twitter Troll 数据集可视化[50] 集成可视化 Neo4j Neo4j
Table 9  图数据库在图可视化方面的应用
