数据分析与知识发现  2021, Vol. 5 Issue (7): 1-9
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院图书情报与档案管理系 北京 100190
3科技大数据湖北省重点实验室 武汉 430071
Entity Alignment Method for Different Knowledge Repositories with Joint Semantic Representation
Li Wenna1,2,Zhang Zhixiong1,2,3()
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Library, Information and Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
3Hubei Key Laboratory of Big Data in Science and Technology, Wuhan 430071, China
【目的】 解决不同知识库中的实体对齐问题,探索如何有效地同时利用知识库结构信息和语义信息的实体对齐方法。【方法】 利用TransE模型表示实体的结构信息,利用BERT模型表示实体的语义信息,并设计基于知识库实体的结构信息和语义信息的联合语义表示模型(BTJE),通过孪生网络实现实体对齐。【结果】 本文方法在DBP-WD和DBP-YG数据集上最优MRR值分别达到0.521和0.413,Hits@1达到0.542和0.478,优于其他传统方法。【局限】 实验数据集规模有限,在更大规模知识库上的通用性有待考证。【结论】 探索了一种基于联合语义表示的不同知识库中的实体对齐方法,通过在模型中同时引入实体的结构信息和语义信息,有效提高了模型对实体的表示能力,从而在不同知识库中的实体对齐任务中有较好的性能。

关键词 实体对齐联合语义表示BERT    

[Objective] This paper combines the structure and semantic information of knowledge, aiming to create a better entity alignment method for different knowledge repositories. [Methods] First, we used the TransE model to represent the structure of entities, and used the BERT model to represent their semantic information. Then, we designed an entity alignment method based on the BTJE model (BERT and TransE Joint model for Entity alignment). Finally, we use the siamese network model to finish entity alignment tasks. [Results] We examined the new method with DBP-WD and DBP-YG datasets. Their optimal MRR values reached 0.521 and 0.413, while the Hits@1 reached 0.542 and 0.478. These results were better than those of the traditional models. [Limitations] The size of our experimental data set needs to be expanded, which will further evaluate the performance of the proposed method. [Conclusions] Our new method could effectively finish entity alignment tasks for different knowledge bases.

Key wordsEntity Alignment    Joint Semantic Representation    BERT
收稿日期: 2021-02-11      出版日期: 2021-08-11
ZTFLH:  TP393  
通讯作者: 张智雄,OCRID: 0000-0003-1596-7487     E-mail:
李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
Li Wenna, Zhang Zhixiong. Entity Alignment Method for Different Knowledge Repositories with Joint Semantic Representation. Data Analysis and Knowledge Discovery, 2021, 5(7): 1-9.
方法类型 使用特征 模型
统计方法 基于实体属性相似度 RDF-AI[5]、SILK[6]、LIMES[7]
基于实体描述信息 决策树[8]、SVM[9]
基于隐含主题特征 LDA-EA[10]、DPVL[11]
基于图结构信息 GCN-Align[13]、RDGCN[14]、MultiKE[15]
基于结构信息的嵌入表示 TransE[17]、TransR[18]、TransH[19]、MTransE[20]
结合属性信息的嵌入表示 JAPE[24]、KDCoE[25]、AttrE[27]
Table 1  知识库实体对齐研究方法归纳
Fig.1  基于联合语义表示的实体对齐模型结构
数据集 来源 实体 关系 属性 关系
DBP-WD DBpedia 100 000 330 351 463 294 381 166
Wikidata 100 000 220 729 448 774 789 815
DBP-YG DBpedia 100 000 302 334 428 952 451 646
YAGO 100 000 31 23 502 563 118 376
Table 2  实验数据集信息
Fig.2  BTJE模型在不同学习率下的训练损失曲线
模型 Hits@1 Hits@10 MRR
仅结构信息 MTransE 0.281 0.520 0.363
IPTransE 0.348 0.638 0.447
结构+属性信息 JAPE 0.318 0.588 0.411
AttrE 0.389 0.667 0.487
联合表示 BTJE 0.542 0.785 0.521
Table 3  DBP-WD数据集上的实验结果
模型 Hits@1 Hits@10 MRR
仅结构信息 MTransE 0.252 0.493 0.334
IPTransE 0.297 0.557 0.386
结构+属性信息 JAPE 0.235 0.484 0.320
AttrE 0.232 0.427 0.300
联合表示 BTJE 0.478 0.692 0.413
Table 4  DBP-YG数据集上的实验结果
