Data Analysis and Knowledge Discovery  2022, Vol. 6 Issue (2/3): 184-201    DOI: 10.11925/infotech.2096-3467.2021.0609
Constructing Knowledge Graph for Financial Securities and Discovering Related Stocks with Knowledge Association
Liu Zhenghao1,2,3(),Qian Yuxing1,2,3,Yi Tianlong1,2,Lv Huakui1,2
1School of Information Management, Wuhan University, Wuhan 430072, China
2Institute of Big Data, Wuhan University, Wuhan 430072, China
3Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China
[Objective] This paper constructs domain knowledge graph based on knowledge association and discovers industry characteristics and related stocks, aiming to improve investors’ decision making. [Methods] Firstly, we constructed the “seed” knowledge graph with stock data. Then, we conducted entity extraction and relationship classification with unstructured text data based on FinBERT pre-training model to generate the triples. Third, we merged the seed graph and the triples to create the knowledge graph for financial securities. Fourth, based on the graph, link prediction, similarity calculation and other data mining algorithms, we discovered the related stocks and their hidden characteristics. Our findings were preliminarily verified by statistical methods. [Results] Our new knowledge graph was constructed with 111,845 entities and 163,370 relationships. We analyzed 10 cross-industry stocks having the highest similarity with “Northeast Securities”. We also examined the potential nonlinear correlation between stocks using “Sihuan Biology”. [Limitations] The constructed knowledge graph only included the impacts of static information (e.g., industry and shareholder ownership) on stock correlation. [Conclusions] Our new knowledge graph provides strong data analytics support for investors to make effective portfolio strategies and predict stock trends.

Key wordsKnowledge Association      Knowledge Graph      Financial Securities      Graph Data Mining      Stock Found     
Received: 21 June 2021      Published: 14 April 2022
ZTFLH:  TP391  
Fund:National Natural Science Foundation of China(91646206);National Key Research and Development Program of China(2020AAA0108505)
Corresponding Authors: Liu Zhenghao,ORCID:0000-0003-1356-7017     E-mail:

Cite this article:

Liu Zhenghao, Qian Yuxing, Yi Tianlong, Lv Huakui. Constructing Knowledge Graph for Financial Securities and Discovering Related Stocks with Knowledge Association. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 184-201.

Construction Framework of Financial Securities Knowledge Graph
主语/头实体 谓语/关系 宾语/尾实体
上市公司 同义 股票
股东 持有 股票
机构 投资 上市公司
人物 投资 上市公司
机构 合作 机构
上市公司 合作 上市公司
机构 合作 上市公司
股票 属于 概念
上市公司 属于 行业
上市公司 发布 公告
上市公司 发生 事件
上市公司 面临 风险
上市公司 位于 位置
上市公司 主营 产品
上市公司 实控人 人物
人物 担任 职务
Predefined Schema Set
RDF Diagram of Sub Domain Ontology of Financial Securities Industry
Knowledge Extraction Process Based on Pipeline Pattern
Self-made Labeling Platform for Sequence Label of Financial Securities Entities
Example of Manual Annotation of Financial News Text Based on BIO Annotation System
Entity Annotation Model Based on FinBERT+Bi-LSTM+CRF
模型参数 数值
输入文本最大长度MAX_SEQ_LEN 200
Hidden size 128
Dropout 0.1
Learning rate 0.001
Batch size 8
epoch 30
Parameters of FinBERT+Bi-LSTM+CRF
实体名称 精确率 召回率 F1值
PER 0.801 2 0.780 6 0.790 8
LOC 0.884 8 0.769 8 0.823 3
COM 0.941 4 0.804 1 0.867 4
ORG 0.838 7 0.827 3 0.833 0
HOLDER 0.660 2 0.625 3 0.642 3
INDUSTRY 0.756 1 0.556 9 0.641 4
PRODUCT 0.857 1 0.728 6 0.787 6
RISK 0.543 9 0.775 0 0.639 2
POS 0.757 3 0.667 1 0.709 3
微平均 0.848 2 0.615 8 0.713 6
宏平均 0.782 3 0.726 1 0.748 2
Experimental Results of Entity Recognition
Distant Supervision Relationship Extraction Process
语句 关系 头实体 头实体类型 头实体起始位置编码 尾实体 尾实体类型 尾实体起始位置编码
美都能源(600175)卷入九好造假风波 回应称“安排”是中性词 面临 美都能源 COM 0 九好造假风波 RISK 14
三聚环保(300072)拟7.7亿港币购巨涛石油服务股权成为其控股股东 持股 三聚环保 COM 0 巨涛石油 COM 20
水泥建材走高,华新水泥(600801)涨停 属于 华新水泥 COM 7 水泥建材 INDUSTRY 0
吴长江所持德豪润达(002005)股份开拍 两笔标的各有一人报名 持股 吴长江 PER 0 德豪润达 COM 5
鲁阳节能(002088):陶瓷纤维产品销量提升业绩预增超1倍 主营 鲁阳节能 COM 0 陶瓷纤维产品 PRODUCT 13
Annotation Results of Relation Extraction
PCNN Feature Extraction Coding
模型参数 数值
输入文本最大长度MAX_SEQ_LEN 200
Word embedding 100
Tag embedding 20
Pos embedding 10
Dropout 0.5
Learning rate 0.001
Balance rate 0.5
Batch size 64
epoch 30
Parameters of PCNN+Attention
关系 关系类型 精确率 召回率 F1值
symmetric Synonymous(SYN) 0.79 0.74 0.76
behavior Hold(HOL) 0.63 0.66 0.64
Invest(INV) 0.75 0.70 0.72
Cooperation(COO) 0.69 0.71 0.70
Announce(ANN) 0.51 0.45 0.48
Suffer(SUF) 0.65 0.69 0.67
attribute_of Located_in(LIN) 0.78 0.77 0.77
Run(RUN) 0.59 0.54 0.56
Act_as(ACT) 0.80 0.67 0.73
Experimental Results of Relationship Classification
实体类型 中文含义及说明 实体数量 实例
StockName A股股票名称 4 061 平安银行;中信证券;贵州茅台
Company A股上市公司 3 949 平安银行;中信证券;贵州茅台
Concept 概念 363 5G概念;区块链;新型病毒
Holder 股东(机构或个人) 8 433 中国平安人寿保险股份有限公司;郭训平
Industry 公司所隶属的行业 110 通信服务;互联网;半导体
Organization 组织机构 124 深交所;保监会
Person 人物 8 424 付红玲;陈曦
Position 职务 1 070 董事长;工信部部长;创始人
Risk 风险 330 股权冻结
Location 位置 67 江苏;华中地区
Notice 公告 60 702 振德医疗用品股份有限公司关于实施“振德转债”赎回暨摘牌
Product 产品 24 212 经济贸易咨询;代理进出口
Total 总计 111 845 约11.2万实体量级
Summary of Knowledge Graph Entity Types
实体关系类型 中文含义 关系数量 实例
ConceptInvolved 所属概念 18 943 <亚光科技,属于,密集调研>
IndustryInvolved 所属行业 22 238 <上海医药,属于,医药商业>
StockTypeIs 股票成分 8 230 <三全食品,成分股属于,深股通>
ChairmanIs 法人代表 5 467 <科恒股份,法人代表,付红玲>
AnnouncementIs 发布公告 60 702 <平安银行,发布公告,关于公开…>
ShareHolding 持股 13 239 <中国证券金融股份有限公司,持有,平安银行>
IsControlledBy 实际控制人 910 <四环生物,实控人,陆克平>
ManagerIs 总经理 6 223 <科恒股份,总经理,蔡承儒>
MainBusinessIs 主营产品 24 212 <丽人丽妆,主营,香水化妆护肤…>
Located_in 位于(省份/城市) 166 <天风证券,位于,湖北>
Invest 投资 1 760 <交通银行,投资,东风公司>
Coopration 合作 224 <中国电信,合作,科大讯飞>
Suffer 面临风险 1 056 <豫铁投债,面临,暂停上市>
Total 总计 163 370 约16.3万关系
Summary of Knowledge Graph Relationship Types
Financial Securities Knowledge Graph Based on Neo4j (part)
股票1 股票2 亲密度
东北证券 广发证券 0.820 755
ST长投 畅联股份 0.818 182
东北证券 长江证券 0.760 000
津滨发展 天房发展 0.750 000
中山公用 广发证券 0.747 967
河钢股份 新兴铸管 0.741 935
中山公用 东北证券 0.719 008
陕国投A 广发证券 0.716 535
中国石化 中国石油 0.714 286
中国铁建 中国中铁 0.714 286
List of Top10 Related Stocks Based on Link Prediction Algorithm
相似度 股票名称 TS代码
0.999 241 陕国投A 000563.SZ
0.998 753 申万宏源 000166.SZ
0.998 712 长江证券 000783.SZ
0.998 681 中山公用 000685.SZ
0.998 416 广发证券 000776.SZ
0.998 134 吉林敖东 000623.SZ
0.955 101 四环生物 000518.SZ
0.953 625 中金岭南 000060.SZ
0.953 002 柳工 000528.SZ
0.952 224 山推股份 000680.SZ
Top 10 Related Stocks Based on Cosine Similarity Algorithm
Heat Map of Stock Correlation Coefficient
Stock Price Trend of Related Stocks
“Sihuan Biology” and Its Related Target Stocks
