Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (7): 81-90     https://doi.org/10.11925/infotech.2096-3467.2021.0145
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于公开履历数据的人物知识图谱构建*
沈科杰,黄焕婷,化柏林()
北京大学信息管理系 北京 100871
Constructing Knowledge Graph with Public Resumes
Shen Kejie,Huang Huanting,Hua Bolin()
Department of Information Management, Peking University, Beijing 100871, China
全文: PDF (1480 KB)   HTML ( 30
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 基于公开履历信息,结合自然语言处理技术与知识图谱构建技术,自动化建立履历知识图谱,为传统研究提供新的视角和工具。【应用背景】 自动抽取履历数据中的人物背景、职衔信息并构建任职经历和机构同事等关系,通过可视化呈现的方式为企事业单位的人才选拔、人事任免任务提供决策支持。【方法】 爬虫获取履历数据后,使用BERT-BiLSTM-CRF模型进行实体识别,通过定义规则与融合外部领域知识构建实体间关系,并使用Neo4j图数据库实现实体及关系的存储与图谱可视化。【结果】 BERT-BiLSTM-CRF模型在实体识别任务测试集上的准确率为84.85%。图谱囊括561位干部履历信息,包含3类共8 174个实体和5类共20 162条关系,能够支持多角度的查询与分析挖掘。【结论】 构建的知识图谱发掘了履历文本间的内在关联,为基于履历数据的研究应用提供了一种新颖易用的方案,但暂缺乏精细化的实体对齐处理和机构实体之间统属关系的构建。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
沈科杰
黄焕婷
化柏林
关键词 履历分析知识图谱实体识别人物图谱    
Abstract

[Objective] This paper constructs knowledge graph based on the public resume data with natural language processing technology, which provides new tool for traditional data analysis. [Context] The proposed method could automatically extract profesional backgrounds and job information from resumes, and then obtain the relationship of working experience and colleagues in the organizations. The visualized knowledge graph could provide decision support for talent selection, personnel appointment and removal tasks of enterprises and institutions. [Methods] First, we used crawler to obtain the resume data and used the BERT-BiLSTM-CRF model to recognize entities. Then, we established the relationship between entities by defining rules and integrating the external domain knowledge. Finally, we used neo4j graph database to store and visualize data. [Results] The accuracy of the BERT-BiLSTM-CRF model with the entity recognition task was 84.85%. The constructed knowledge graph, which included resumes of 561 people, 8,174 entities in 3 categories, and 20,162 relationships in 5 categories, could support multi-angle queries and data mining. [Conclusions] This proposed model explores the internal relationships among resumes and provides a novel way to analyze resumes. However, there are few precise entity alignment processing and the establishment of relationships among institution entities.

Key wordsRusume Analyse    Knowledge Graph    NER    Characters Knowledge Graph
收稿日期: 2021-02-11      出版日期: 2021-08-11
ZTFLH:  TP391  
基金资助:*国家社会科学基金项目(17BTQ066)
通讯作者: 化柏林,ORCID:0000-0001-9248-6455     E-mail: huabolin@pku.edu.cn
引用本文:   
沈科杰, 黄焕婷, 化柏林. 基于公开履历数据的人物知识图谱构建*[J]. 数据分析与知识发现, 2021, 5(7): 81-90.
Shen Kejie, Huang Huanting, Hua Bolin. Constructing Knowledge Graph with Public Resumes. Data Analysis and Knowledge Discovery, 2021, 5(7): 81-90.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0145      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I7/81
Fig.1  基于公开履历数据的人物知识图谱构建框架
Fig.2  BERT-BiLSTM-CRF模型示意图
Fig.3  关系构建规则示意图
序号 规则 规则阐释
嵌入在机构标签内部的职位标签更改为机构标签 如“北京市人大常委会”中的“常委”会识别为职位,“常委”两字的标签修正为机构
机构地点指代消解 如“市财政局”中的市指代前半句“北京市人大常委会”中的“北京市”
机构职位一对多关系 机构数少于职位数的情形下采用职位向左最近匹配的方法构建职位与机构的关系
机构粒度处理 (1)在任职信息中,“、”后一般为职位信息,该职位与前句的机构有关;
(2)“,”后一般为区别于前句的新机构任职信息;
(3)抽取出以“,”分割分句下的第一个机构,该分句内其他的的机构定义为子机构,子机构与职位进行合并;
(4)若识别出子机构且子机构内出现地点信息,如“中国银行|辽宁省分行”,则不对识别出的两机构切分处理
机构名变迁 如“电子工业部、机械电子工业部”存在机构名包含(变迁)情况,职位与位置靠前的机构进行配对
兼任职务处理 若“兼”字后面仍识别出机构,则需要在“兼”字处对句子进行切分,抽取出兼职所属机构的信息
Table 1  关系构建的6条规则
类型 示例 操作
表述省略 部分机构实体有简称与全称多种表述,如“中国石油化工集团公司”在某履历中简写为“中国石化总公司” 若一机构名为另一机构名子字符串,剔除“集团”等停用词后且文本编辑距离在2以内,标记为同一实体并统一为全称
名称变更 在不同历史时期,同一机构实体使用不同名称,如“中国长江三峡集团公司”与“中国长江三峡工程开发总公司”为同一公司在不同时期的名称 若一机构名各字符顺序存在于另一机构名中,剔除“集团”等停用词后且文本编辑距离在5以内,化作字向量[20]并计算余弦相似度,大于0.9阈值则标记为同一实体并统一为时代靠后的名称表述
机构变迁 时代发展所导致的组织机构撤销、重组及调整现象,如“国土资源部“等部门重组为“自然资源部” 该情况实例数量较少,但难以自动化辨识。需人工借助外部知识更正名称表述
Table 2  多表述类型及解决方案
实体名 属性 属性取值 数量
姓名 干部姓名 561
地点 地名 地点名,如“河北” 3 317
等级 地点行政区域等级,如“省级”
机构 机构名 机构称谓,如“河北省委” 4 296
Table 3  实体及其属性描述
关系名 关系语义 头实体 尾实体 属性 属性取值 数量
出生于 某人出生于某地,如某某出生于五峰县 地点 - - 548
毕业于 某人毕业于某校,如某某毕业于北京大学 机构 - - 515
任职于 某人任职于某机构,如某某任职于河北省委 机构 开始时间 任期开始时间 12 241
结束时间 任期结束时间
位于 某机构位于某地,如北京大学位于北京 机构 地点 - - 3 544
属于 某地属于某地,如石家庄属于河北 地点 地点 - - 3 314
Table 4  关系及其属性描述
实体类型 准确率/% 召回率/% F1值/%
地点 81.93 78.29 80.07
机构 78.84 81.8 80.29
职位 90.74 87.53 89.11
姓名 90.55 94.24 92.36
Table 5  BERT-BiLSTM-CRF模型各类实体识别结果评价
模型 准确率/% 召回率/% F1值/%
IDCNN-CRF 77.29 76.76 77.02
BiLSTM-CRF 78.86 76.91 77.87
BERT-BiLSTM-CRF 84.85 84.51 84.68
Table 6  各模型效果比较
Fig.4  知识图谱应用示例
[1] 田瑞强, 姚长青, 潘云涛, 等. 基于履历数据的海外华人高层次科技人才流动研究: 社会网络分析视角[J]. 图书情报工作, 2014, 58(19):92-99.
[1] (Tian Ruiqiang, Yao Changqing, Pan Yuntao, et al. Using the Curriculum Vitae for Career Mobility Research of Chinese Overseas Highly-Talent: From the Perspective of Social Network Analysis[J]. Library and Information Service, 2014, 58(19):92-99.)
[2] 马秀玲, 饶帅. 少数民族地区基层公务员晋升的影响因素研究——基于县处级正职领导干部的履历分析[J]. 西北民族大学学报(哲学社会科学版), 2016(4):53-63.
[2] (Ma Xiuling, Rao Shuai. On Influence Factor of Promotion of Basic Unit Public Servants in Ethnic Area——Case Study of CVs of County-level Principals[J]. Journal of Northwest Minzu University (Philosophy and Social Sciences), 2016(4):53-63.)
[3] Hamman J A. Career Experience and Performing Effectively as Governor[J]. American Review of Public Administration, 2004, 34(2):151-163.
doi: 10.1177/0275074004263758
[4] Sun J J, Cole M, Huang Z Y, et al. Chinese Leadership: Provincial Perspectives on Promotion and Performance[J]. Environment and Planning C: Politics and Space, 2018, 37(4):750-772.
doi: 10.1177/2399654418791580
[5] 任宁. 大规模真实文本中的人物职衔信息提取研究[D]. 北京: 北京语言大学, 2008.
[5] (Ren Ning. Personal Position and Title Information Extraction in Large-Scale Real Texts[D]. Beijing: Beijing Language and Culture University, 2008.)
[6] 谷楠楠, 冯筠, 孙霞, 等. 中文简历自动解析及推荐算法[J]. 计算机工程与应用, 2017, 53(18):141-148, 270.
[6] (Gu Nannan,(Feng Yun,(Sun Xia, et al. Chinese Resume Information Automatic Extraction and Recommendation Algorithm[J]. Computer Engineering and Applications, 2017, 53(18):141-148, 270.)
[7] Dong F, Wang J N. Personal Information Extraction of the Teaching Staff Based on CRFs[C]// Proceedings of 2015 International Conference on Network & Information Systems for Computers. 2015: 615-617.
[8] 祖石诚, 王修来, 曹阳, 等. 基于新型文本块分割法的简历解析[J]. 计算机科学, 2020, 47(S1):95-101.
[8] (Zu Shicheng, Wang Xiulai, Cao Yang, et al. Resume Parsing Based on Novel Text Block Segmentation Methodology[J]. Computer Science, 2020, 47(S1):95-101.)
[9] Gaur B, Saluja G S, Sivakumar H B, et al. Semi-supervised Deep Learning Based Named Entity Recognition Model to Parse Education Section of Resumes[J]. Neural Computing and Applications, 2021, 33:5705-5718.
doi: 10.1007/s00521-020-05351-2
[10] 曹烃. 体育科研论文合著状况分析——基于知识图谱的CSSCI文献计量分析[J]. 北京体育大学学报, 2012, 35(9):49-54.
[10] (Cao Ting. Analysis on the Co-author Status of the Sports Scientific Research Thesis——A Study Based on the Knowledge Map of CSSCI Literature Metrological Analysis[J]. Journal of Beijing Sport University, 2012, 35(9):49-54.)
[11] 杨海慈, 王军. 宋代学术师承知识图谱的构建与可视化[J]. 数据分析与知识发现, 2019, 3(6):109-116.
[11] (Yang Haici, Wang Jun. Visualizing Knowledge Graph of Academic Inheritance in Song Dynasty[J]. Data Analysis and Knowledge Discovery, 2019, 3(6):109-116.)
[12] 王晓萍, 郭梦洁, 岳婧雯. 基于关系图谱的人岗关系研究[J]. 大数据, 2020, 6(6):129-139.
[12] (Wang Xiaoping, Guo Mengjie, Yue Jingwen. Research on Person-Position Relationship Based on Relation Graph[J]. Big Data Research, 2020, 6(6):129-139.)
[13] He Y, Yun H Y, Lin L. The Character Relationship Mining Based on Knowledge Graph and Deep Learning[C]// Proceedings of the 5th International Conference on Big Data Computing and Communications (BIGCOM). 2019: 22-27.
[14] Huang Z H, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[OL]. arXiv Preprint, arXiv:1508.01991.
[15] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [OL]. arXiv Preprint, arXiv:1810.04805.
[16] 王子牛, 姜猛, 高建瓴, 等. 基于BERT的中文命名实体识别方法[J]. 计算机科学, 2019, 46(S2):138-142.
[16] (Wang Ziniu, Jiang Meng, Gao Jianling, et al. Chinese Named Entity Recognition Method Based on BERT[J]. Computer Science, 2019, 46(S2):138-142.)
[17] 中国政要资料库[EB/OL]. [2021-01-30]. http://cpc.people.com.cn/GB/64162/394696/index.html.
[17] (Database of Chinese Politicians[EB/OL]. [2021-01-30]. http://cpc.people.com.cn/GB/64162/394696/index.html.)
[18] 地方党政领导人物库[EB/OL]. [2021-01-30]. http://district.ce.cn/zt/rwk/index.shtml.
[18] (Database of Local Party and Government Leaders[EB/OL]. [2021-01-30]. http://district.ce.cn/zt/rwk/index.shtml.)
[19] Jiao Z Y, Sun S Q, Ke S. Chinese Lexical Analysis with Deep Bi-GRU-CRF Network[OL]. arXiv Preprint, arXiv:1807.01882.
[20] Li S, Zhao Z, Hu R F, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 138-143.
[1] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[2] 阮小芸,廖健斌,李祥,杨阳,李岱峰. 基于人才知识图谱推理的强化学习可解释推荐研究*[J]. 数据分析与知识发现, 2021, 5(6): 36-50.
[3] 李贺,刘嘉宇,李世钰,吴迪,金帅岐. 基于疾病知识图谱的自动问答系统优化研究*[J]. 数据分析与知识发现, 2021, 5(5): 115-126.
[4] 代冰,胡正银. 基于文献的知识发现新近研究综述 *[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 陈仕吉, 邱均平, 余波. 基于Overlay图谱的图情领域大数据主题分析*[J]. 数据分析与知识发现, 2021, 5(10): 51-59.
[7] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[8] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[9] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[10] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[11] 吕华揆,洪亮,马费成. 金融股权知识图谱构建与应用*[J]. 数据分析与知识发现, 2020, 4(5): 27-37.
[12] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[13] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[14] 孙鑫瑞,孟雨,王文乐. 基于知识图谱与目标检测的微博交通事件识别*[J]. 数据分析与知识发现, 2020, 4(12): 136-147.
[15] 朱超宇, 刘雷. 基于知识图谱的医学决策支持应用综述*[J]. 数据分析与知识发现, 2020, 4(12): 26-32.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn