Advanced Search

数据分析与知识发现, 2020, 4(5): 27-37 doi: 10.11925/infotech.2096-3467.2019.0929

研究论文

金融股权知识图谱构建与应用*

吕华揆1,3, 洪亮2,3, 马费成,,1,3

1武汉大学信息资源研究中心 武汉 430072

2武汉大学信息管理学院 武汉 430072

3武汉大学大数据研究院 武汉 430072

Constructing Knowledge Graph for Financial Equities

Lv Huakui1,3, Hong Liang2,3, Ma Feicheng,,1,3

1Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

2School of Information Management, Wuhan University, Wuhan 430072, China

3Big Data Institute, Wuhan University, Wuhan 430072, China

通讯作者: 马费成,ORCID:0000-0003-0187-0131,E-mail:fchma@whu.edu.cn

收稿日期: 2019-08-9   修回日期: 2019-12-1   网络出版日期: 2020-05-25

基金资助: *本文系国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”重点支持项目“基于知识关联的金融大数据价值分析、发现及协同创造机制”.  91646206
国家自然科学基金重点国际(地区)合作研究项目“大数据环境下的知识组织与服务创新研究”的研究成果之一。.  71420107026

Received: 2019-08-9   Revised: 2019-12-1   Online: 2020-05-25

摘要

【目的】 利用中国金融数据,以股权结构为切入点构建金融知识图谱,为金融研究工作提供新思路。【应用背景】 针对现有金融研究主要分析债权数据的现状,通过可视化金融股权数据,为监管机构及研究人员提供工作着力点。【方法】 运用股权数据,从知识关联出发,通过对金融机构间持股关系、持股比例分析,构建中国金融股权知识图谱,在此基础上实现金融机构间关系可视化。【结果】 生成的知识图谱包含4 586万余个节点,14 574万余关系,可以进行实体及其之间关系的查询,还能够进行穿透式查询三层。【结论】 本研究从股权角度出发对金融网络进行研究,在一定程度上突破现有研究集中于债权的局限,为金融工作提供新方向。

关键词: 知识图谱 ; 股权结构 ; 知识关联

Abstract

[Objective] This paper constructs a financial knowledge graph from the perspective of equity, which provides new directions for financial research. [Context] The existing financial research mainly analyses the data of creditor’s rights. Our study helps regulators and researchers through visualization of financial equity data.[Methods] With the help of knowledge connection, we constructed a knowledge graph for Chinese financial equities based on their ownership and the proportion of shareholdings. Then, we visualized the relationship among the financial institutions.[Results] Our knowledge graph had more than 45.86 million nodes and 145.74 million relationships. Users could query entities and their relationships for up to three layers.[Conclusions] The proposed method analyzes the financial network from the perspective of equity, which breaks through the limitations of existing research focusing on creditor’s rights.

Keywords: Knowledge Graph ; Ownership Structure ; Knowledge Connection

PDF (1797KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吕华揆, 洪亮, 马费成. 金融股权知识图谱构建与应用*. 数据分析与知识发现[J], 2020, 4(5): 27-37 doi:10.11925/infotech.2096-3467.2019.0929

Lv Huakui, Hong Liang, Ma Feicheng. Constructing Knowledge Graph for Financial Equities. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 27-37 doi:10.11925/infotech.2096-3467.2019.0929

1 引言

金融作为现代经济的核心,在推动国家发展过程中发挥着举足轻重的作用。2008年美国次贷危机蔓延全球,雷曼兄弟破产及其引发的一系列连锁反应无疑暴露了金融体系的脆弱[1],这种脆弱的根源就是金融机构间错综复杂的关系。现代金融体系中,金融机构间的联系愈发多样,这为内幕交易[2]以及金融风险传导等提供了便利,为保证金融体系稳健运行,对其进行研究和把控成为关键,也是金融危机过后重要的研究方向。但是,面对庞大的机构群体及其之间多样化的联系,如何进行梳理成为研究者面临的难题。

知识图谱的出现为问题解决提供了技术支撑,知识图谱是一种揭示实体之间关系的语义网络[3],可以描述实体属性及实体之间关系等内容。金融机构之间存在的诸如持股、借贷等多种关系均可以在知识图谱中体现。作为金融机构间的重要关系,借贷关系被广泛运用于金融研究中,成为次贷危机过后主流研究方向,研究成果较多。然而持股关系作为机构间常见的一种关系,在金融网络中同样扮演着重要角色,已有研究证明股权结构不仅会对银行风险产生影响[4,5,6],还会对机构绩效[7]等形成作用。因此本文选择股权结构作为切入点,借助知识图谱工具,从知识关联角度出发,通过考察金融机构间持股关系、持股比例,构建中国金融股权知识图谱,在此基础上实现金融机构间关系查询及其可视化,以期为稳定金融行业提供新视角。

2 相关研究

现有关于金融知识图谱的研究较少,国内学者主要是运用CiteSpace等软件,通过对相关金融文献主题进行可视化,探讨金融领域研究热点并预测未来研究方向[8,9]。此类研究中提及的知识图谱与本文存在较大差异,本文构建的知识图谱立足于现实世界,是反映机构真实情况及机构间关联情况的知识大图,可以随外部环境动态变化,而非类似于已有研究立足于文献,以关键词为节点,关键词之间的共现为边。在针对该方面的国外研究中,Loster等[10]针对金融知识图谱构建问题,提出模块化系统CurEx,通过从文本中提取实体之间的关系,将结构化和非结构化数据源集成到一个特定领域知识库中,并为其创建知识图谱,该研究所创建的知识图谱与本文较为类似,但CurEx是一个通用金融知识图谱构建系统,其内部实体之间的关系并不明确,没有结合外部世界情况进行系统优化,本文则是以持股关系作为机构间关联关系,并结合实际情况构建金融股权知识图谱。

虽然有关金融知识图谱的研究较少,但是关于金融网络的研究较多,网络理论是与知识图谱较为相近的一个理论,其是在图论基础上发展而来的一种方法[11],以节点和边构成研究对象及其之间的关系是基本思想,网络理论与知识图谱的区别在于其运用的数据量偏小。目前有关金融网络的研究主要集中于风险识别方面,自Allen等[12]首次将网络理论运用于系统性风险研究以来,该方法便在相关研究中占据重要位置。将金融机构、部门、区域或国家作为图中节点,机构之间关系作为边是研究中常见做法,机构间关系包括借贷关系和其他交易关系,通过对相关网络图的梳理,研究者实现了对风险及其传导路径的识别。如Kanno[13]以全球银行为节点,银行间双边风险暴露为边,分析全球银行间市场的网络结构,并通过中心度分析、压力测试等方法评估全球银行系统的系统性风险;Paltalidis等[14]根据银行在银行间贷款市场实际风险敞口、主权信用风险和资产价格风险构建两个金融网络,其中一个网络用节点代表银行业务部门,边代表银行间风险敞口,另一个网络则用节点代表每个国家银行业实际风险敞口,边代表每个本地银行系统的跨境风险, 以此对欧元区银行业系统性风险进行系统建模。

综上,网络理论并未被充分运用,首先,网络理论目前主要应用于风险识别领域;其次,网络图中边的含义过于笼统,研究者没有对机构间关系进一步细分,如就借贷关系而言,可以按时间长短或贷款种类等进行区分,目前的粗略划分方式无法实现深层次知识挖掘;最后,用于构建网络图的数据量过小,导致反映出的情况与现实存在差异。

在大数据环境下,有大量数据可以辅助相关研究,传统网络图无法对如此大量数据进行表示,知识图谱则可以有效解决这个问题。鉴于股权在金融网络中发挥着众多作用,并且有债权无法比拟的优势:股权数据相比于债权数据获得渠道多样且更新及时;股权比例是相对数,债权则是绝对数,相对数能够更好地反映出机构间影响程度;债权数据不能充分反映机构间关联情况,间接持债无法体现出权利的传递,而间接持股可以,所反映出的机构间关联情况也更丰富。因此,本文选择股权数据构建金融知识图谱,图谱中以机构/个人为节点,机构除银行外,还包括基金公司、证券公司等非银行金融机构以及非金融机构,个人是指连接两家或多家机构的人员,节点含义多样化弥补了以往研究的不足,节点间关系以持股关系为主、雇佣关系(机构董监高、CEO等)为辅,并绘制成边,通过股权穿透,在基本持股关系基础上推理得到控股、持股、一致行动、关联交易、共同人员5种细致的关联关系,实现基于金融股权知识图谱的知识发现。

3 金融股权知识图谱构建

金融领域是实现信息化最早的行业领域之一,经过长期发展已经积累了海量行业数据。这些数据类型与内容丰富,并且来源广泛,既有数据库规范结构化数据,也有文本或音视频等半结构化和非结构化数据;既有各类金融事务,如高频证券交易数据,也有各类企业财务报表、经营活动等信息;既有官方正规数据库数据,也有互联网上各类金融和企业相关报道消息,这些数据共同构成金融领域大数据整体。但由于数据来源不同,数据源与数据内容缺乏关联性,相关信息形成孤岛,因此金融大数据的价值具有隐蔽性,只有综合运用这些跨时空的信息,才能够最大化信息效用。以知识关联为基础的知识图谱能够多角度、多层次刻画事物关联的事实与规律,因而本文通过构建金融股权知识图谱实现对金融大数据价值的利用。本文构建的金融股权知识图谱从层次上可以划分为模式层与数据层两个层次[3],模式层是知识图谱核心,目的是构建知识图谱框架,数据层则是结合现实数据对模式层进行实例化。金融股权知识图谱构建框架如图1所示。

图1

图1   金融股权知识图谱构建架构

Fig.1   Structure of Financial Equity Knowledge Graph


3.1 模式层构建

作为实现模式层的重要技术,本体表示法被广泛运用,本体表示法可以将本体表示为形式化、概念化的规范。根据金融股权网络特征,本文将金融本体划分为机构本体和个人本体,机构本体是金融股权知识图谱的重要组成部分,是研究的主要关注点,但是机构间关联有时通过高管或者股东等人实现,这些人员通过在机构任职等方式将多个机构连接,自身构成金融网络中的枢纽,因此有必要构建一个独立于机构的个人本体。机构本体的属性包含机构类型、所处行业、注册资本、人员以及历史变更等;个人本体属性则包含所在公司、担任职务等;本体间主要关系包括持股、控股、一致行动、关联交易、共同人员5类。其关联关系类型及定义如表1所示。

表1   关联关系类型及定义

Table 1  Types and Definitions of Association Relations

主要关系概念实例
持股持有其他方股份,但未达到控股水平A持有B小部分股份
控股持有的股份占公司股本总额50%以上的股东或虽然不足50%,但足以对股东会、股东大会的决议产生重大影响A持有B大部分股份,能够控制B的生产经营活动
一致行动投资者通过协议、其他安排,与其他投资者共同扩大其所能够支配的一个上市公司股份表决权数量的行为或者事实A、B共同股东对C有控制权(或其他信息)
关联交易构成控制、共同控制或重大影响的投资者之间进行的不公平交易现象向股东借款、担保
共同人员机构之间拥有共同高管、董事A、B有共同高管、董事……

新窗口打开| 下载CSV


现实中,金融网络内的机构不仅包含金融机构,还包含非金融机构,两类机构在网络中发挥不同作用,金融机构的内在特征对网络稳定至关重要,非金融机构则主要通过影响相关联的金融机构,间接影响网络平衡。本文据此将机构本体区分为金融机构本体和非金融机构本体。此外,考虑到金融机构的重要性及不同类型金融机构在经济社会中所起作用不同,根据中国人民银行发布的《金融机构编码规范》[15],将金融机构细分为货币当局、监管当局、银行业存款类金融机构、银行业非存款类金融机构、证券业金融机构、保险业金融机构、交易及结算类金融机构、金融控股公司及其他9类。本文认为银行业存款类机构较其余几类更为重要,多数金融危机的直接表现就是银行业存款机构无法偿还款项,有必要对其进行深入分析,因而根据银行性质进一步将其划分为国有商业银行、股份制商业银行、城市商业银行和农村商业银行4类。此外,由于个人可因其任职不同对机构产生不同影响,例如:股东可直接决定机构重要决策,而董事、监事、高级管理人员(董监高)在大多数情况下只是执行股东的决策,为了区分这种影响,个人本体被划分为股东及董监高两类。图2为所构建金融本体示意图。

图2

图2   金融本体示意图

Fig.2   Schematic Diagram of Financial Ontology


3.2 数据层构建

数据层构建的目的是将数据融合到知识图谱构建过程中,包含4个步骤:知识抽取、知识融合、知识加工与知识更新 [16],该层通过对模式层实例化,丰富知识图谱的内容。

(1) 知识抽取

知识抽取是对半结构或非结构化数据中的实体、属性及关系三个知识要素进行提取。金融股权知识图谱中的数据可来源于多个渠道,包括企业年报财报、财经新闻评论、社交网络舆情等,这些数据由事务型数据、文本型数据以及其他半结构化数据构成,为获得其中的机构名称、持股比例等金融信息,需要利用知识抽取技术在对文本特征进行分析的基础上得到。不同来源的数据结构化水平有所差异,为提高知识抽取效率,应分别采用不同的知识抽取方法。对于工商企业数据库等结构化数据,根据其结构定义生成框架知识模式并导出相应信息;对于企业年报等半结构化数据,采用规则方法结合领域知识设计半自动抽取程序提取相关信息;对于财经新闻等非结构化数据,则主要采用自然语言处理方法,基于统计机器学习利用人工标注语料进行训练后抽取。抽取后的信息以三元组形式(<机构/个人-关系-机构/个人>、<机构/个人-属性-属性值>、<关系-比例-比例值>)保存于数据库中,这些三元组本质上就是金融股权网络中的知识关联。

(2) 知识融合

知识抽取得到的数据部分存在冗余及错误现象,知识融合是对其加工处理并将其与已有知识整合的过程。

在金融股权数据中,数据的多源异构导致实体、属性、关系各类数据中存在歧义现象。以实体数据为例,歧义包含两方面内容:实体指向不明确,如“中国邮政”可能代表“中国邮政储蓄银行”或者“中国邮政速递物流”等;多个实体指向同一实体,如“中国建筑”和“中建公司”都代表“中国建筑集团有限公司”。实体融合中,实体链接及实体分类等是解决歧义的主要方法;属性融合中,解决方法包括最小编辑距离、基于向量的相似度计算等;关系融合中,常用解决方法包括相似性度量等。

数据来源不同导致的另一个问题是,其蕴含的知识分布于多个库中,对其进行整合时同样面临歧义和冗余问题,如针对一个公司而言,“注册资本5 000万人民币”与“注册资本724万美元”可能是等价的,合并过程中只需保留一个。知识库合并时需要考虑数据层和模式层两个层面的问题[17],模式层中需将不同知识库描述的本体进行合并,该过程可完善本体架构,运用的主要方法包括本体分块、本体对齐和实体匹配等;数据层中需解决不同知识库实体、属性及关系的冲突问题,如两个库中“名称”和“名字”可能代表相同含义,合并时就需要考虑此类问题,通常该步骤采用的方法是RDB2RDF,通过将RDF作为数据模型、运用实体链接等技术,实现知识及知识库的合并。另外,金融股权知识是时间敏感的,不同时刻金融股权数据反映出的知识有差异,在知识库融合过程中,需要从来源以及时效两个角度对知识进行选择。

(3) 知识加工

知识抽取和融合得到的“知识”严格意义上来说是事实,知识加工是将事实转变为知识,进而形成专业知识结构和体系的过程。该步骤包含本体构建、知识推理和质量评估三个子过程,本体构建的目的是明确相关金融概念及其之间的逻辑关系,其包含自顶向下与自底向上两种构建方式,自顶向下的构建从宏观角度预定义本体概念与层次结构,这种构造方式可能会带来部分内容缺失;自底向上的构建从微观角度对个体情况进行考察,但实现起来过于繁琐。目前大多数知识图谱采用自底向上的构建方式,以确保数据广泛覆盖[18],本文采用自顶向下与自底向上相结合的构建方式,在模式层从宏观角度对相关本体概念与层次结构进行定义,见图2。该框架中本体过于稀疏,通过在数据层对企业年报财报、财经新闻等数据的处理,结合现实数据对本体库进行补充。

知识推理是通过对现有知识间关联情况的分析,构建实体间新联系。在金融股权知识图谱中,持股关系毫无疑问是机构间最普遍的联系方式,但是对金融机构产生重大影响的一般是机构间更深层次的关系,例如一致行动、控股等,知识推理可以显示这些关系,具体的做法是对实体间持股情况进行穿透式分析,考虑各种持股情形,通过对累积持股比例数值以及机构间联系的考察,根据表1中关联关系的定义推断机构间存在的隐式关系。推理规则如下:

①若一个机构直接或间接持有另一机构的股权比例达到50%以上,则将它们之间的关系推断、深化为控股关系;

②若有两个或多个机构被同一机构所控制,即若一个机构是其他多个机构的控股股东,那么所有这些机构会被推断为一致行动人,具有一致行动关系;

③若有高管或董事同时在多家机构任职,那么其所在的这些机构会被推断为具有共同人员的关系;

④若机构之间构成控股、一致行动、共同人员关系,并且在后续的事件研究中,发现这些机构之间存在贷款等交易事项,则认为它们之间存在关联交易关系。

在前述获取信息以及消除信息不确定性等工作中,信息可靠性并未被充分考虑,现实及网络中总是充斥着过时及虚假的金融信息,不对其过滤会导致得到的信息缺乏质量保证,并会使研究结论偏离实际情况,与知识融合过程中的错误信息不同,这里的错误信息主要是由内容低质量造成的。质量评估过程则可以控制信息可靠性,是将知识添加到知识库前必不可少的一项工作,强业务规则、用户贡献知识等方法是该过程常用方法,通过剔除可靠性低的信息,避免低质量信息对研究产生负面影响。

(4) 知识更新

利用当前知识构建的图谱是一个静态知识图谱,只能反映某一时间点的金融网络情况,基于静态知识图谱进行的研究工作具有时滞性。金融股权知识图谱最重要的意义在于能够实时反映现实世界状况,并对未来发展等进行预测,静态知识图谱显然不具有前瞻性,因此本文根据外部信息变化,动态更新金融机构间持股情况,使知识图谱能够指导相关研究。知识更新涉及到对知识抽取、知识融合、知识加工三个步骤的综合运用,通过对实时信息的利用,构造了动态知识图谱。

3.3 知识图谱可视化

知识图谱构建工作的最终目的是基于该图谱进行一系列研究工作,例如知识检索,即通过人工搜索或机器自动处理,对所需知识进行反馈,为研究者、监管机构等群体提供工作着力点。为实现该目标,应对金融股权知识图谱进行可视化。

金融股权网络具有典型拓扑结构,其中的持股等关联关系具有方向性,并且其属性值为数值类型,因此建立的知识图谱为有向、有权重的。根据金融网络拓扑结构特征建立关系映射表是数据整合到知识图谱中的关键[19],映射表只需将相关机构/个人抽象为节点,机构/个人间关联情况抽象为边,机构/个人和关联情况的属性抽象为节点和边的属性。以图引擎为基础的图数据库 Neo4j 具有高效的数据存储结构和可视化能力以及较强的复用性与关联性,在对金融股权网络进行更新时无需大量修改,是构建统一数据平台的有效工具[19]。因此,本文选择该工具对知识图谱进行可视化。金融股权知识图谱中每个节点代表一个机构/个人,机构/个人间的有向线段代表持股方向,属性包含在实体和关联关系中,在系统中单机实体和关系便可显示相关属性。初始网络中的关联关系只包含持股关系,其他诸如控股等关系需要在全局金融股权网络下,通过对知识关联进行推理得到。

知识具有4种关联模式,即分类关联、时空关联、统计关联与事件关联[20]。将其应用于金融系统中,分类关联表示金融机构的层次结构,通常在实体特征分析基础上,将具有相似特征的实体聚集在同一类别中,本文运用该模式对具有同一控制人的企业进行归类,并重新评估同一类别中实体间的关系;时空关联是从时空变化中,考察金融活动演变情况,该模式通常运用于风险事件考察,实际研究中可以利用其对风险路径进行识别,判断随着时空变化,风险会如何传导;统计关联是通过统计方法,发现事物之间潜在联系,例如在股权网络中,机构控股股东是较难判断的,如果一个机构股权较为分散,那么持股比例达到20%可能就成为控股股东;如果股权较为集中,那么可能要达到50%以上才能成为控股股东。针对这种情况,需要对机构实际状况进行统计分析,甄别出真正控股人;事件关联是机构间较为本质的关联,机构实际上都是通过事件关联在一起,例如举债、购股等,研究中通过对数据源的不断更新,运用该模式对机构间关联关系进行动态调整。通过对数据与4种关联模式的映射,从更广的维度对金融网络进行分析。

笔者课题组在承担国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”重点支持项目“基于知识关联的金融大数据价值分析、发现及协同创造机制”时,通过抽取企业年报财报、财经新闻等文本中的银行股权知识构建银行股权数据库,并将其与来自深圳证券信息有限公司的工商企业数据库融合,得到涵盖国内银行业金融机构的股权结构知识库。在此基础上通过知识加工和知识更新等步骤构造中国银行股权知识图谱,知识图谱中包含4 586万余个节点,14 574万余个关系,据此明晰中国银行业机构的股权结构,找到银行业机构之间本质的关联方式,并实现机构基本情况、机构间关联情况的查询,还能够进行穿透式查询三层以及金融风险识别,如图3所示。每个节点代表一个实体(机构/人员),实体之间的连线表示实体间关系(持股、董事等),图3的左边展示了实体属性,节点颜色用以区分关联层级,红色节点为所要查询的实体,蓝色节点代表直接持有其股份或与机构有其他利益关系的实体,绿色节点代表与所查询实体存在间接联系的第二层实体,黄色节点则代表第三层实体。

图3

图3   金融股权知识图谱示例

Fig.3   Example of Financial Equity Knowledge Graph


4 金融股权知识图谱应用

4.1 穿透式查询及监管

间接持股普遍存在于现实机构间,未经加工的知识图谱只能显示机构间直接影响力大小,而无法反映间接影响程度,为解决该问题,需要寻求一种方法将图谱中割裂的关系连结。所谓股权穿透是指在金字塔股权结构下,识别公司间多层持股情况,该方法来源于“终极产权论”[21]的观点,即直接控股股东往往还被其他股东所控制,仅对控股股东进行考察无法得知公司真实情况,对股东进行层层追溯才能够找到最终控制人[22]。本研究运用股权穿透方法,在对持股比例进行计算的基础上,得到最终股权结构特征,明确机构之间通过股权相连的所有路径,并实现任意两个机构之间持股路径的查询,继而从中抽取出控制权网络,即通过寻找网络中的最终控制人,将最终控制人作为初始节点,层层回溯得到其控制路径,引入机器学习支持向量机算法在找节点过程中建模判断是否为控制权网络中的节点,最终通过知识推理得到实际控制人控制的多个机构之间的真实联系,包括实际受益人、一致行动人等。该过程扩展了知识图谱中关联关系的语义。

此种穿透式查询具有重要意义,金融风险传染速度之快往往令监管者措手不及,明确机构之间的关系有利于监管者了解风险传染的途径,及时阻断风险传导,甚至从源头避免风险发生,亦便于其对风险发生原因进行追根溯源,以引导金融业稳定发展。

4.2 持股比例计算

La Porta等[21]提出“终极产权论”时,将机构间关系划分为控制权和表决权两类,并利用控制链条中最弱表决权之和计算最终所有者的控制权,后续研究[23]也延续这个做法。现实中,股权与表决权具有密切联系,根据《中华人民共和国公司法》[24]规定,股东出席股东大会会议,所持每一股有一票表决权,即持股比例越高,往往表决权比重越大,不同的是,表决权比重还与股东大会参会人数有关。考虑到股权与表决权相关性较大以及表决权数据获取较为困难,与以往研究不同,本文对股权数据进行研究,并利用该数据进行持股比例相关迭代计算。此外,在股权穿透计算中,传统的加法运算虽然可以高效简便地判断持股比例相对大小,但是无法计算出较为准确的数值,亦无法很好地判断机构间影响程度,乘法运算则可以弥补这些不足。首先,乘法运算考虑持股方对被持股方影响力大小,直接持股和间接持股是机构/个人间的两种持股方式,直接持股可以直接对相关机构施加影响,而间接持股会削弱这种作用,乘法运算将这种削弱作用考虑在内;其次,乘法运算计算出来的数值更接近于现实情况,毕竟持股比例不可能超过100%。鉴于此,本文在计算真实持股比例时引入乘法运算,如公式(1)或公式(2)所示。

uki=dki
uki=θkjuji

结合图4, uki代表股东k对所有内部股东i(包括金融机构)的最终持股比例,如果k直接持有i的股份,则采用公式(1)计算持股比例;如果k通过其他股东间接持有i的股份,则采用公式(2)进行持股比例计算。

图4

图4   持股比例计算示意图

Fig.4   Calculation Diagram of Shareholding Ratio


在金融网络中,两个机构的关联方式是多样的,一个机构往往利用不同渠道对另一个机构施加影响,最终持股比例的计算需要综合考虑两个机构间所有持股路径,分别计算每条路径上的持股比例,并将所得结果加总以真实反映一个机构对另一个机构的综合影响力。研究中采用深度优先遍历算法,得到一个机构持股另一个机构的所有方式,通过对每一条持股路径进行识别和汇总,实现最终持股比例的计算。

uki=dki+jθkjuji

交叉持股现象在金融股权网络中非常常见,这一现象造成网络中环路的存在,对持股比例计算造成障碍,为解决该问题,本文引入Tarjan算法,识别网络中的强连通图,结合深度优先遍历树,将环路拆解为多个链条,借此消除其影响。

4.3 金融资本系分析

金融资本系指一个或者几个主体,直接或间接控股、持股多个金融机构,由此形成的具有特定结构的股权网络子图,资本系的存在加深了金融机构间的联系,为金融市场带来潜在风险。中国资本市场中存在许多资本系,比较著名的有“德隆系”、“明天系”等,近些年随着监管的深入,越来越多的资本系浮出水面,并受到政府的关注,然而还有许多资本系潜藏于金融网络中,其中的核心机构通过影子银行及派驻高管等方式间接控制他方,编织了一张涵盖多行业、多机构的网络,对金融体系的稳定带来挑战。现有研究主要考虑机构间的相互影响,而没有考虑人的作用,这造成了机构间众多关系的缺失,对资本系的识别带来困难。

本文构建的金融股权知识图谱可以在一定程度上解决此问题。首先,本文构造的网络中不仅包含机构,还包含在公司任职的董监高以及公司股东等人,机构间的关联不仅包含机构间的直接关联,还包含通过人员及其他机构等的间接关联,节点类型以及关联方式的多样揭示了机构间完整的关联路径,便于资本系的识别工作;其次,通过对持股比例的分析计算,可以得到每个金融机构最终控制人,经过股权穿透可以快速从网络抽取出资本系的构成图。本研究以识别出的机构最终控制人为出发点,统计最终控制人所控制的金融机构数,当该数目达到阈值时,便认为其构成资本系中心,并从图谱中得到资本系的所有组成机构,实现资本系全貌的识别及分析,方便监管者对其进行管理。图5为某一资本系概况,绿色节点为资本系中心,红色节点为资本系网络中的金融机构,可以看出资本系的资本渗透于各行业,并且能够影响较多的金融机构,可以对金融系统运作产生一定程度的影响。

图5

图5   金融资本系图谱示例

Fig.5   Example of Financial Capital System Graph


4.4 风险识别与预测

金融风险识别及预测历来是金融研究工作的重点,相关研究已经产生一些重要结论。本文在金融股权知识图谱基础上,结合以下两个结论及网络中心度指标,综合判断一个机构风险水平。

(1)国有股比例会对银行业稳定产生影响,国有股是国家对金融机构的最终所有权及控制权占比,是国家金融安全、政治安全的基础判断依据。曹廷求等[25]指出政府以股东身份对银行董事会的控制起到降低银行风险的明显效果;梁洪波等[5]的研究结果表明占主导地位的国有股为商业银行提供隐性担保和国家信用支持,有利于银行体系稳定发展。

(2)金融机构规模会影响机构风险程度,规模越大风险越大是研究中的共识[26],相关解释有很多,包括规模越大的金融机构越容易从事高风险业务[27]等。注册资本则是判断机构规模的一个重要参数,注册资本越大的公司往往规模越大,因此本文采用注册资本指标进行风险识别研究。

国有股比例及机构规模两个指标可以初步形成对一个机构风险水平的判别,但是却忽略了机构在风险传导中的地位,或者说其在金融网络中的作用,即便一个机构风险程度再高,如果没有其他机构与之有关联关系,风险便无法进行传染,亦不会对金融系统造成过大影响,因而风险识别中需要结合机构在网络中的重要程度,从金融系统全局角度考察其风险,网络中心度是衡量机构在网络中所起作用的一个重要指标,聚焦于金融股权网络,该指标可以反映机构在风险传导中所起作用,本研究运用度中心度、中介中心度以及接近中心度三个中心度指标,由于研究目的在于判断机构在整个系统中所处的地位,因此在实际应用时,没有考虑持股的方向性。

结合上述三个判别标准,本文认为在一定程度上能够实现对机构风险水平的判断,例如,在研究中发现某一机构的国有持股比例小于30%,仅达到10%左右,并且其注册资本数额较大,达到50亿元人民币,可以得知该机构规模较大且政府对其控制力度相对较小,初步判断该机构风险程度较高。为进行验证,进一步分析该机构的三个中心度指标:度中心度为10、中介中心度达到5 000、接近中心度则在0.4以下,可以推断该机构虽然仅与其他10个机构具有直接关联关系,但是却是其他众多机构关联的支点,间接影响其他机构且影响范围较广,从而可以得出结论:该机构风险较大,有必要对其进行持续关注。

本研究通过构建金融股权知识图谱,运用股权穿透方法对国有股比例进行计算,并结合工商数据中的机构注册资本额以及网络中心度指标,构建了判断机构风险水平的标准,可以实现风险事前预测、事中控制以及事后追责等,为风险识别和预测提供新方法。

5 总结与展望

金融在现代社会中发挥着愈来愈重要的作用,党的十八大和十九大均强调了金融工作的重要性[28],然而目前有关金融研究的工作具有局限性。

(1)多数学者仍旧运用一些传统经济指标对金融市场进行考察,并且研究对象狭隘,没有对金融系统进行全局性分析,2008年的金融危机已经证明考察单个金融机构风险的方法无法预见风险的发生,对全局性、系统性金融风险进行研究和分析是大势所趋,未来的研究应该将经济指标等作为风险判断的辅助依据;

(2)研究数据来源单一,且金融网络动态性考虑不足,无法立足于现实世界的客观情况,金融信息被大众普遍关注,相关信息来源渠道众多,国内金融信息主要来源于4个渠道:专业金融网站,以专业投资者的看法和意见为主导;沪、深交易所网站,以公司及交易所披露的信息为主,信息权威性强;社交媒体,主要以微博为代表,这类信息权威性较弱,但是其中蕴含的投资者情绪会对股市造成影响;财经新闻,包括电视媒体及报纸期刊中与财经有关的信息,这类信息较客观,侧重于对客观事实的论述。4类信息侧重点不同,综合4类信息才能更深入地了解金融领域,并且金融数据的时效性较强,若不动态分析,所得结论则不具现实意义;

(3)现有研究以债权角度为核心,数据源的易获得性等客观因素没有被充分考虑,从现实情况来看,股权会影响金融的稳定,股权意味着控制权,明确金融股权关联,实际上就能够把握金融机构之间影响的机制,相比于债权数据,股权数据具有反映机构影响力等优势。

因此,本文从股权角度出发,通过本体构建等过程构造金融股权知识图谱,并运用分类关联、时空关联、统计关联与事件关联4种模式实现股权网络动态化,在知识图谱基础上,通过穿透式计算,得到最终股权结构特征,揭示机构之间的关联路径。

本文对于金融研究及管理工作具有一定的参考意义,首先,为金融研究提供新思路——从股权角度出发,通过股权关联,从全局角度实现风险识别等;其次,对股权进行穿透式监管,可以辅助金融主管部门的管理工作,便于其对机构的运作进行监控;最后,金融机构也可以在该知识图谱基础上,通过进一步加工,例如对机构群体进行聚类等方式,找到企业未来发展方向,改善企业运营状况。本文不足在于:金融机构之间的联系是多样的,仅考察股权数据具有片面性。未来通过拓宽信息来源渠道,对舆情信息反映出的事件和情绪等进行分析,并将其与股权结构研究相结合,从更广阔的维度对金融领域进行研究,为稳定金融业发挥更大作用。

作者贡献声明

吕华揆:论文撰写;

洪亮:知识图谱构建;

马费成:提出研究思路,设计研究方案,论文修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail:lvhuakui@whu.edu.cn。

[1] 吕华揆, 洪亮,马费成. Equity_Data.rar. 金融股权知识图谱构建数据.

参考文献

Silva W, Kimura H, Sobreiro V A.

An Analysis of the Literature on Systemic Financial Risk: A Survey

[J]. Journal of Financial Stability, 2017,28:91-114.

[本文引用: 1]

李晓娜.

公司交叉持股法律风险问题研究

[D]. 贵阳:贵州大学, 2016.

[本文引用: 1]

( Li Xiaona.

Corporate Cross-shareholdings Legal Risk Problem Research

[D]. Guiyang: Guizhou University, 2016.)

[本文引用: 1]

徐增林, 盛泳潘, 贺丽荣, .

知识图谱技术综述

[J]. 电子科技大学学报, 2016,45(4):589-606.

[本文引用: 2]

( Xu Zenglin, Sheng Yongpan, He Lirong, et al.

Review on Knowledge Graph Techniques

[J]. Journal of University of Electronic Science and Technology of China, 2016,45(4):589-606.)

[本文引用: 2]

Barry T A, Lepetit L, Tarazi A.

Ownership Structure and Risk in Publicly Held and Privately Owned Banks

[J]. Journal of Banking & Finance, 2011,35(5):1327-1340.

[本文引用: 1]

梁洪波, 刘远亮.

商业银行股权结构与信用风险——基于中国上市银行的实证分析

[J]. 首都经济贸易大学学报, 2012,14(6):45-50.

[本文引用: 2]

( Liang Hongbo, Liu Yuanliang.

Ownership Structure and Credit Risk of Commercial Banks: An Empirical Analysis Based on Listed Banks in China

[J]. Journal of Capital University of Economics and Business, 2012,14(6):45-50.)

[本文引用: 2]

Kanno M.

Network Structures and Credit Risk in Cross-shareholdings Among Listed Japanese Companies

[J]. Japan and the World Economy, 2019,49(C):17-31.

[本文引用: 1]

王贞秀.

我国上市商业银行股权结构对绩效影响的研究

[D]. 北京:首都经济贸易大学, 2018.

[本文引用: 1]

( Wang Zhenxiu.

Research on the Influence of the Ownership Structure of Listed Commercial Banks in China on Performance

[D]. Beijing: Capital University of Economics and Business, 2018.)

[本文引用: 1]

赵高敏, 马慧子, 郭雨婷.

基于知识图谱的我国互联网金融研究可视化分析

[J].商业经济研究, 2019(2):154-156.

[本文引用: 1]

( Zhao Gaomin, Ma Huizi, Guo Yuting.

Visualization Analysis of Internet Finance Research in China Based on Knowledge Map

[J]. Journal of Commercial Economics, 2019(2):154-156.)

[本文引用: 1]

罗暘洋, 李存金, 方俊.

互联网金融领域的研究前沿演进路径——基于知识图谱的量化研究

[J].中国科技论坛, 2018(9):80-88.

[本文引用: 1]

( Luo Yangyang, Li Cunjin, Fang Jun.

The Research Evolution Path in Internet Finance——Quantitative Research Based on Knowledge Map

[J]. Forum on Science and Technology in China, 2018(9):80-88.)

[本文引用: 1]

Loster M, Naumann F, Ehmueller J , et al.

CurEx: A System for Extracting, Curating, and Exploring Domain-Specific Knowledge Graphs from Text

[C]// Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 1883-1886.

[本文引用: 1]

段志生.

图论与复杂网络

[J]. 力学进展, 2008,38(6):702-712.

[本文引用: 1]

( Duan Zhisheng.

Graph Theory and Complex Networks

[J]. Advances in Mechanics, 2008,38(6):702-712.)

[本文引用: 1]

Allen F, Gale D.

Financial Contagion

[J]. Journal of Political Economy, 2000,108(1):1-33.

DOI:10.1086/262109      URL     [本文引用: 1]

Kanno M.

Assessing Systemic Risk Using Interbank Exposures in the Global Banking System

[J]. Journal of Financial Stability, 2015,20:105-130.

[本文引用: 1]

Paltalidis N, Gounopoulos D, Kizys R, et al.

Transmission Channels of Systemic Risk and Contagion in the European Financial Network

[J]. Journal of Banking & Finance, 2015,61(S1):S36-S52.

[本文引用: 1]

中国人民银行.

金融机构编码规范

[EB/OL]. ( 2010- 05- 25). http://www.pbc.gov.cn/diaochatongjisi/116219/116229/2879376/index.html.)

URL     [本文引用: 1]

( The People’s Bank of China.

Coding Specification for Financial Institutions

[EB/OL]. ( 2010- 05- 25). http://www.pbc.gov.cn/diaochatongjisi/116219/116229/2879376/index.html.)

URL     [本文引用: 1]

刘峤, 李杨, 段宏, .

知识图谱构建技术综述

[J]. 计算机研究与发展, 2016,53(3):582-600.

[本文引用: 1]

( Liu Qiao, Li Yang, Duan Hong, et al.

Knowledge Graph Construction Techniques

[J]. Journal of Computer Research and Development, 2016,53(3):582-600.)

[本文引用: 1]

Deshpande O, Lamba D S, Tourn M , et al.

Building, Maintaining, and Using Knowledge Bases: A Report from the Trenches

[C]// Proceedings of the 32nd ACM SIGMOD International Conference on Management of Data. New York: ACM, 2013: 1209-1220.

[本文引用: 1]

Ruan T, Xue L, Wang H , et al.

Building and Exploring an Enterprise Knowledge Graph for Investment Analysis

[C]// Proceedings of the 2016 International Semantic Web Conference. Springer, Cham, 2016.

[本文引用: 1]

马义松, 武志刚.

基于Neo4j的电力大数据建模及分析

[J]. 电工电能新技术, 2016,35(2):24-30.

[本文引用: 2]

( Ma Yisong, Wu Zhigang.

Modeling and Analysis of Big Data for Power Grid Based on Neo4j

[J]. Advanced Technology of Electrical Engineering and Energy, 2016,35(2):24-30.)

[本文引用: 2]

唐旭丽, 马费成, 傅维刚, .

知识关联视角下的金融知识表示及风险识别

[J]. 情报学报, 2019,38(3):286-298.

[本文引用: 1]

( Tang Xuli, Ma Feicheng, Fu Weigang, et al.

Research on Financial Knowledge Representation and Risk Identification from Knowledge Connection Perspective

[J]. Journal of the China Society for Scientific and Technical Information, 2019,38(3):286-298.)

[本文引用: 1]

La Porta R, Lopez-de-Silanes F, Shleifer A.

Corporate Ownership around the World

[J]. The Journal of Finance, 1999,54(2):471-517.

[本文引用: 2]

张大勇.

金字塔股权结构对国资控股上市公司业绩影响的实证研究——基于政府控制级别差异的视角

[J]. 西南民族大学学报:人文社科版, 2018,39(10):122-128.

[本文引用: 1]

( Zhang Dayong.

An Empirical Study on the Impact of Pyramid Ownership Structure on the Performance of State-owned Holding Listed Companies: From the Perspective of Differences in Government Control Levels

[J]. Journal of Southwest Minzu University: Humanities and Social Science, 2018,39(10):122-128.)

[本文引用: 1]

Su K, Wan R, Li B. Ultimate Ownership,

Institutionality, and Capital Structure: Empirical Analyses of Chinese Data

[J]. Chinese Management Studies, 2013,7(4):557-571.

[本文引用: 1]

中华人民共和国司法部.

中华人民共和国公司法

[EB/OL].[ 2019- 01- 16]. http://www.moj.gov.cn/Department/content/2019-01/16/592_226957.html.)

URL     [本文引用: 1]

( Ministry of Justice of the People’s Republic of China.

Company Law of the People’s Republic of China

[EB/OL].[ 2019- 01- 16]. http://www.moj.gov.cn/Department/content/2019-01/16/592_226957.html.)

URL     [本文引用: 1]

曹廷求, 郑录军, 于建霞.

政府股东, 银行治理与中小商业银行风险控制——以山东, 河南两省为例的实证分析

[J]. 金融研究, 2006(6):102-111.

[本文引用: 1]

( Cao Tingqiu, Zheng Lujun, Yu Jianxia,

Government Shareholders, Bank Governance and Risk Control of Small and Medium-sized Commercial Banks: An Empirical Analysis of Shandong and Henan Provinces

[J]. Journal of Financial Research, 2006(6):102-111.)

[本文引用: 1]

Laeven L, Ratnovski L, Tong H,

Bank Size, Capital, and Systemic Risk: Some International Evidence

[J]. Journal of Banking & Finance, 2016,69(S1):S25-S34.

[本文引用: 1]

Shleifer A, Vishny R W.

Unstable Banking

[J]. Journal of Financial Economics, 2010,97(3):306-318.

[本文引用: 1]

申唯正, 孙洪钧.

习近平总书记关于金融重要论述的哲学探析

[J].毛泽东邓小平理论研究, 2019(4):25-32.

[本文引用: 1]

( Shen Weizheng, Sun Hongjun. A Philosophical Analysis of Xi Jin-ping’s Socialist Financial Thought with Chinese Characteristics for a New Era[J]. Studies on Mao Zedong and Deng Xiaoping Theories, 2019(4):25-32.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn