Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (2/3): 318-328     https://doi.org/10.11925/infotech.2096-3467.2021.0922
  专辑 本期目录 | 过刊浏览 | 高级检索 |
融合结构和内容的方志文本人物关系抽取方法*
王永生,王昊(),虞为,周泽聿
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室 南京 210023
Extracting Relationship Among Characters from Local Chronicles with Text Structures and Contents
Wang Yongsheng,Wang Hao(),Yu Wei,Zhou Zeyu
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
全文: PDF (1255 KB)   HTML ( 13
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 在方志信息资源领域内开展关系抽取研究,探究方志文本中蕴含的地域文化传统。【方法】 从文本结构和文本内容两个角度探讨关系抽取方法。文本结构上使用规则模板和词句特征的方法从原始文本中提取人物关系记录,并构建不同粒度的人物关系类别;文本内容上引入远程监督的方法进一步提取人物关系记录;最后引入BERT+Bi-GRU+ATT和BERT+FC深度学习模型将人物关系抽取任务转化为人物关系的多标签分类任务,并通过对关系标签修正的方式弱化远程监督引入的噪声对模型精度所产生的影响。【结果】 基于多角度融合提出的关系抽取方法具有自动化程度高、关系记录提取率高的特征。深度学习BERT+FC模型在不同类别上F1值的提升幅度可达1%~27%;不同关系类别间表现出一定的亲和性,但类别本质不同;标签修正后的“强共现关系”F1值提高3%。【局限】 仅探究了地方志中人物实体间关系,未拓展研究方志文本中其他实体间关系。【结论】 基于多角度融合的方法提供了一套方志文本同类型实体关系抽取研究流程,引入深度学习模型增强了关系抽取方法的可移植性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王永生
王昊
虞为
周泽聿
关键词 地方志关系抽取远程监督BERTBi-GRU    
Abstract

[Objective] This study proposes a new method to extract relationship among characters from local chronicles, aiming to explore the culture and history information embedded in Yiwu Local Chronicles—Chapter of Persons. [Methods] We constructed the relationship extraction model based on text structures and contents. For text structures, we used the rule templates and word features to extract relationship from the original texts, which was also categorized with different granularity. For the text contents, we introduced a remotely supervised approach to extract relationship. Then, we combined the BERT+Bi-GRU+ATT and BERT+FC deep learning models to transform the relationship extraction to a multi-label classification task. Finally, we reduced the impacts of the noise from remote supervision on the model’s accuracy by correcting relationship labels. [Results] The proposed method realized high automation and yielded better extracted information. The BERT+FC models improved the F1 values by up-to 27%, while different relationship categories showed some affinity. The F1 value of the “strong co-occurrence relationship” was increased by 3% after label correction. [Limitations] We only investigated the relationships among characters in local chronicles. [Conclusions] The new method could effectively extract relationship among the same type of entities in historical Chinese documents.

Key wordsLocal Chronicles    Relationship Extraction    Remote Supervision    BERT    Bi-GRU
收稿日期: 2021-08-28      出版日期: 2022-02-18
ZTFLH:  G254  
基金资助:*国家自然科学基金项目(72074108);和中央高校基本科研业务费项目的研究成果之一(010814370113)
通讯作者: 王昊,ORCID:0000-0002-0131-0823     E-mail: ywhaowang@nju.edu.cn
引用本文:   
王永生, 王昊, 虞为, 周泽聿. 融合结构和内容的方志文本人物关系抽取方法*[J]. 数据分析与知识发现, 2022, 6(2/3): 318-328.
Wang Yongsheng, Wang Hao, Yu Wei, Zhou Zeyu. Extracting Relationship Among Characters from Local Chronicles with Text Structures and Contents. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 318-328.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0922      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I2/3/318
Fig.1  研究路线
类别 样例(节选)
人物简介 杨乔,字圣达。高祖杨茂,河东人,随汉光武帝刘秀,······,汉桓帝爱其才貌,欲招其为驸马,乔坚决推辞,但皇命难抗,于是绝食7日而死。
人物传记 骆宾王(619~约684),字观光。骆家塘人。祖父和父亲都是饱学之士。······骆宾王给太常寺卿刘祥道等高官上书陈情,企求引荐。······骆宾王与王勃、杨炯、卢照邻以文词齐名,史称“初唐四杰”。······
Table 1  人物关系样例
Fig.2  BERT+Bi-GRU+Attention模型结构
Fig.3  BERT+FC模型结构
一级关系类 二级关系类 三级关系类
社会关系 上下级关系 君臣
将臣
赏识
社会敌对
政治敌对
亲好关系 社会亲好
政治亲好
社交关系 朋友
战友
同事
同僚
类亲属关系 师徒
亲属关系 亲属关系 祖孙
兄弟
父子
其他亲属
共现关系 共现关系 共现关系
Table 2  多粒度关系类别
关系词类别 主关系词 扩展关系词
仕途类 随、请、荐、助、率 追随、跟随、跟从、部下、左右手、器重、保护、举荐
族亲类 父、母、妻、子、孙、兄、弟、祖 祖父、季父、长子、嫁、妻子、伉俪、从弟、堂弟、从兄、从子、从祖、外祖、裔、后裔、曾祖、高祖、从曾祖、六世祖、六世孙、七世孙、九世孙、裔孙、舅父、外甥、年伯、侄、同乡、抚育、后代、亲家
书文类 从、师、事、见、供、入、讨、为、学、同、友、学于 弟子、从师、师事、学生、学文于、行学于、受业于、门下、同舍、同门、帮助、同学、同事、齐名、结识、知己
Table 3  关系词
关系词类别 关系模板
一般名词([NOUN]) Entity1 [是/为/作/担任][或省略]Entity2 (的) [NOUN]
一般名词([NOUN]) Entity1 [指代词] [NOUN] (是) Entity2
动词([VERB]) Entity1 [VERB] Entity2
动介组合词([VERB_PRON]) Entity1 [VERB_PRON] Entity2
名介组合词([NOUN_PRON]) Entity1 [NOUN_PRON] Entity2
Table 4  关系规则模板
类别 结果样例
基于规则模板抽取 <王固>,<胡瑗>,<师徒>,<王固,北宋,字天贶,佛堂蒲潭人,受业于胡瑗。>
基于词特征抽取 <金佛庄>,<吴农华>,<共现>,<吴农华 经 金佛庄 介绍 参加 中国共产党组织>
Table 5  基于文本结构的关系抽取结果举例
模型 一级粒度关系分类结果 二级粒度关系分类结果
社会关系 亲属关系 共现关系 上下级 亲好 社交 类亲属 亲属 共现
BERT+Bi-GRU+ATT 0.97 0.87 0.55 0.73 0.53 0.81 0.73 0.84 0.71
BERT+FC 0.99 0.95 0.80 0.78 0.57 0.82 0.80 0.92 0.83
Table 6  一/二级粒度关系分类结果
Fig.4  三级粒度关系分类结果
(注:BERT+G+A:BERT+Bi-GRU+ATT)
实体对 关系记录 实际关系 预测关系
<虞抟,南轩> 虞抟,父南轩,兄怀德,均精于岐黄之术。 父子 父子
<南轩,怀德> 虞抟,父南轩,兄怀德,均精于岐黄之术。 父子 父子
<虞抟,怀德> 虞抟,父南轩,兄怀德,均精于岐黄之术。 兄弟 父子
父子:80.37%
兄弟:27.57%
<毛泽东,毛岸英> 冯雪峰为毛泽东寻找到失落的儿子毛岸英和毛岸青。 父子 父子
<毛泽东,毛岸青> 冯雪峰为毛泽东寻找到失落的儿子毛岸英和毛岸青。 父子 父子
<毛岸英,毛岸青> 冯雪峰为毛泽东寻找到失落的儿子毛岸英和毛岸青。 兄弟 父子
父子:54.68%
兄弟:26.43%
Table 7  父子、兄弟关系预测样例
属性 样例
Name 杨乔(东汉官员)
BaiduCARD 桓帝时官吏,累官至尚书左丞。乔才貌双全,数上言政事。桓帝欲妻以公主,乔固辞不从,遂不食而死。
BaiduTAG 官员
字号 圣达
所处时代 东汉末
本名 杨乔
籍贯 会稽[今浙江绍兴]
Table 8  CN-DBpedia样例
共现关系 样例
强共现关系 <骆俊>,<袁术>,<强共现关系>,<骆俊,字孝远,以孝廉荐举,补任尚书郎,升任陈国相。时群雄并起割据混战,建安二年,袁术称帝,骆俊加强军备加以抗拒,反对袁术称帝。>
弱共现关系 <许谦>,<王顺>,<弱共现关系>,<王顺,元,字性之,许谦弟子。>
Table 9  强、弱共现关系记录样例
Fig.5  基于远程监督的关系抽取结果对比
实体对 关系记录 实际关系标签 预测关系标签
<叶味道,徐侨> 理宗派叶味道传谕徐侨。 强共现关系 社会关系(62.66%)
<虞德烨,张好一> 虞德烨先擒获苗帅张好一、安松,义释其缚,放还山寨。 强共现关系 社会关系
(75.35%)
<陈德钱,陈德清> 革命武装队伍成员有:朱有元、朱有法、朱有富、蒋乌皮、金大春、陈德钱、陈德清、陈三弟、俞卢元等。 强共现关系 社会关系
(67.62%)
Table 10  混合数据预测结果
[1] 王宋祥. 非限定类型的实体关系抽取研究[D]. 长沙: 湖南师范大学, 2018.
[1] ( Wang Songxiang. Research on Unrestricted Type Entity Relation Extraction[D]. Changsha: Hunan Normal University, 2018.)
[2] 张世民. 关中理学与史志关系的典型例证——《高陵县续志》[J]. 华夏文化, 2020(2):5-11.
[2] ( Zhang Shimin. A Typical Example of the Relationship Between Science and History in Guanzhong-Gaoling County Continuing Chronicle[J]. Chinese Culture, 2020(2):5-11.)
[3] Zhou Z Y, Zhang H Y. Research on Entity Relationship Extraction in Financial and Economic Field Based on Deep Learning[C]// Proceedings of the 4th International Conference on Computer and Communications. IEEE, 2018: 2430-2435.
[4] Rosario B. Extraction of Semantic Relations from Bioscience Text[M]. University of California, Berkeley, 2005.
[5] Singhal A, Simmons M, Lu Z Y. Text Mining for Precision Medicine: Automating Disease-Mutation Relationship Extraction from Biomedical Literature[J]. Journal of the American Medical Informatics Association, 2016, 23(4):766-772.
doi: 10.1093/jamia/ocw041 pmid: 27121612
[6] Liang C, Zan H, Liu Y, et al. Research on Entity Relation Extraction for Military Field[C]// Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation. 2018.
[7] 卢克治. 基于中医古籍的知识图谱构建与应用[D]. 北京: 北京交通大学, 2020.
[7] ( Lu Kezhi. The Construction and Application of Knowledge Graph Based on the Ancient Books of Traditional Chinese Medicine[D]. Beijing: Beijing Jiaotong University, 2020.)
[8] 李娜, 包平. 方志类古籍中物产名与别名关系的可视化——基于社会网络分析技术视角[J]. 图书馆论坛, 2017, 37(12):108-114.
[8] ( Li Na, Bao Ping. Visual Exploration of the Relationship Between Produce Names and Their Alias in Ancient Local Chronicles[J]. Library Tribune, 2017, 37(12):108-114.)
[9] 黄蓓静. 深度学习技术在中文人物关系抽取中的应用研究[D]. 上海: 华东师范大学, 2017.
[9] ( Huang Beijing. Study on the Application of Deep Learning Technology in Chinese Personal Relation Extraction[D]. Shanghai: East China Normal University, 2017.)
[10] 韩红旗, 徐硕, 桂婕, 等. 基于词形规则模板的术语层次关系抽取方法[J]. 情报学报, 2013, 32(7):708-715.
[10] ( Han Hongqi, Xu Shuo, Gui Jie, et al. Term Hierarchical Relation Extraction Method Based on Morphology Rule Template[J]. Journal of the China Society for Scientific and Technical Information, 2013, 32(7):708-715.)
[11] 李冬梅, 张扬, 李东远, 等. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020, 57(7):1424-1448.
[11] ( Li Dongmei, Zhang Yang, Li Dongyuan, et al. Review of Entity Relation Extraction Methods[J]. Journal of Computer Research and Development, 2020, 57(7):1424-1448.)
[12] 刘辉, 江千军, 桂前进, 等. 实体关系抽取技术研究进展综述[J]. 计算机应用研究, 2020, 37(S2):1-5.
[12] ( Liu Hui, Jiang Qianjun, Gui Qianjin, et al. Review of Research Progress of Entity Relationship Extraction[J]. Application Research of Computers, 2020, 37(S2):1-5.)
[13] 张兰霞, 胡文心. 基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J]. 计算机应用与软件, 2018, 35(11):130-135.
[13] ( Zhang Lanxia, Hu Wenxin. Character Relation Extraction in Chinese Text Based on Bidirectional GRU Neural Network and Dual-Attention Mechanism[J]. Computer Applications and Software, 2018, 35(11):130-135.)
[14] Wu S C, He Y F. Enriching Pre-Trained Language Model with Entity Information for Relation Classification[C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. 2019: 2361-2364.
[15] Yi R L, Hu W X. Pre-Trained BERT-GRU Model for Relation Extraction[C]// Proceedings of the 8th International Conference on Computing and Pattern Recognition. ACM, 2019: 453-457.
[16] 胡欣. 基于网络媒体的人物关系分析方法研究[D]. 成都: 电子科技大学, 2020.
[16] ( Hu Xin. Research on Person Relationship Analysis Method Based on Network Media[D]. Chengdu: University of Electronic Science and Technology of China, 2020.)
[17] 谢腾, 杨俊安, 刘辉. 融合多特征BERT模型的中文实体关系抽取[J]. 计算机系统应用, 2021, 30(5):253-261.
[17] ( Xie Teng, Yang Junan, Liu Hui. Chinese Entity Relation Extraction Based on Multi-Feature BERT Model[J]. Computer Systems & Applications, 2021, 30(5):253-261.)
[18] 刘忠宝, 党建飞, 张志剑. 《史记》历史事件自动抽取与事理图谱构建研究[J]. 图书情报工作, 2020, 64(11):116-124.
[18] ( Liu Zhongbao, Dang Jianfei, Zhang Zhijian. Research on Automatic Extraction of Historical Events and Construction of Event Graph Based on Historical Records[J]. Library and Information Service, 2020, 64(11):116-124.)
[19] 李跃艳, 王昊, 孟镇, 等. 基于关联数据的汉语文本语义化描述和展示[J]. 情报理论与实践, 2021, 44(6):171-179.
[19] ( Li Yueyan, Wang Hao, Meng Zhen, et al. Semantic Description and Display of Chinese Text Based on Linked Data[J]. Information Studies: Theory & Application, 2021, 44(6):171-179.)
[20] 王一钒, 李博, 史话, 等. 古汉语实体关系联合抽取的标注方法[J]. 数据分析与知识发现, 2021, 5(9):63-74.
[20] ( Wang Yifan, Li Bo, Shi Hua, et al. Annotation Method for Extracting Entity Relationship from Ancient Chinese Works[J]. Data Analysis and Knowledge Discovery, 2021, 5(9):63-74.)
[21] 王晓莉, 叶东毅. 基于字词特征自注意力学习的社交媒体文本分类方法[J]. 模式识别与人工智能, 2020, 33(4):287-294.
[21] ( Wang Xiaoli, Ye Dongyi. Social Media Text Classification Method Based on Character-Word Feature Self-Attention Learning[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(4):287-294.)
[22] 范青, 史中超, 谈国新. 非物质文化遗产的知识图谱构建[J]. 图书馆论坛, 2021, 41(10):100-109.
[22] ( Fan Qing, Shi Zhongchao, Tan Guoxin. Construction of Intangible Cultural Heritage Knowledge Graphs[J]. Library Tribune, 2021, 41(10):100-109.)
[23] 来新夏. 中国地方志的史料价值及其利用[J]. 国家图书馆学刊, 2005(1):5-8.
[23] ( Lai Xinxia. Chinese Local Histories: Historical Values and Utilization[J]. Journal of the National Library of China, 2005(1):5-8.)
[24] 梁启超. 中国近三百年学术史[M]. 北京: 商务印书馆, 2011.
[24] ( Liang Qichao. A History of Chinese Scholarship in the Last Three Centuries[M]. Beijing: The Commercial Press, 2011.)
[25] 李娜. 社会网络分析视角下方志古籍知识组织研究——以《方志物产》山西分卷为例[D]. 南京: 南京农业大学, 2017.
[25] ( Li Na. On the Knowledge Organization of Ancient Local Chronicle from the Perspective of Social Network Analysis—Taking Local Chronicle: Produce of Shanxi for Example[D]. Nanjing: Nanjing Agricultural University, 2017.)
[26] 李娜, 包平. 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆, 2018(5):67-73.
[26] ( Li Na, Bao Ping. Establishment of Automatic Recognition Model of Location Names in Collection of Ancient Local Chronicles Oriented to Digital Humanities[J]. Library, 2018(5):67-73.)
[27] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究[J]. 数据分析与知识发现, 2020, 4(8):86-97.
[27] ( Xu Chenfei, Ye Haiying, Bao Ping. Automatic Recognition of Produce Entities from Local Chronicles with Deep Learning[J]. Data Analysis and Knowledge Discovery, 2020, 4(8):86-97.)
[28] 李娜. 面向方志类古籍的多类型命名实体联合自动识别模型构建[J]. 图书馆论坛, 2021, 41(12):113-123.
[28] ( Li Na. Construction of Automatic Recognition Model of Multi-Type Named Entities for Local Gazetteers[J]. Library Tribune, 2021, 41(12):113-123.)
[29] Mintz M, Bills S, Snow R, et al. Distant Supervision for Relation Extraction Without Labeled Data[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.
[30] Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1753-1762.
[31] 王志邦, 汪志华. 义乌历史的解构与呈现——《义乌市志》读后[J]. 中国地方志, 2013(7):19-24.
[31] ( Wang Zhibang, Wang Zhihua. The Deconstruction and Presentation of Yiwu’s History - “Yiwu City Magazine” After Reading[J]. China Local Records, 2013(7):19-24.)
[1] 张云秋, 汪洋, 李博诚. 基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别*[J]. 数据分析与知识发现, 2022, 6(2/3): 242-250.
[2] 郭航程, 何彦青, 兰天, 吴振峰, 董诚. 基于Paragraph-BERT-CRF的科技论文摘要语步功能信息识别方法研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 298-307.
[3] 谢星雨, 余本功. 基于MFFMB的电商评论文本分类研究*[J]. 数据分析与知识发现, 2022, 6(1): 101-112.
[4] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[5] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[6] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[7] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[8] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[9] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[10] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[11] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[12] 刘文斌, 何彦青, 吴振峰, 董诚. 基于BERT和多相似度融合的句子对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[13] 尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[14] 宋若璇,钱力,杜宇. 基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究*[J]. 数据分析与知识发现, 2021, 5(5): 10-20.
[15] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn