Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (7): 26-35     https://doi.org/10.11925/infotech.2096-3467.2021.0094
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于RoBERTa-CRF的古文历史事件抽取方法研究*
喻雪寒,何琳(),徐健
南京农业大学信息管理学院 南京 210095
Extracting Events from Ancient Books Based on RoBERTa-CRF
Yu Xuehan,He Lin(),Xu Jian
College of Information Management, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (844 KB)   HTML ( 27
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 为有效抽取典籍中蕴含的事件信息,构建面向典籍的事件抽取框架,并采用RoBERTa-CRF模型实现事件类型、论元角色和论元的抽取。【方法】 选择《左传》的战争句作为实验数据,建立事件类型和论元角色的分类模板。基于RoBERTa-CRF模型,先用多层Transformer提取语料特征,再结合前后文序列标签学习相关性约束,由输出的标记序列识别论元并对其进行抽取。【结果】 对比GuwenBERT-LSTM、BERT-LSTM、RoBERTa-LSTM、BERT-CRF、RoBERTa-CRF等5种模型在数据集上的事件抽取实验结果,RoBERTa-CRF的精确度为87.6%、召回率为77.2%、F1值达到82.1%,验证了该模型的有效性和可操作性。【局限】 使用的数据集规模较小,无法使主题类别更均衡化。【结论】 本文构建的RoBERTa-CRF模型提升了面向《左传》战争句的事件抽取效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
喻雪寒
何琳
徐健
关键词 RoBERTaCRF事件抽取古文    
Abstract

[Objective] This paper constructs a framework to extract events from ancient books, which uses the RoBERTa-CRF model to identify event types, argument roles and arguments. [Methods] We collected the war sentences from Zuozhuan as the experimental data, which helped us establish the classification schema for event types and argument roles. Based on the RoBERTa-CRF model, we used the multi-layer transformer to extract the corpus features, which were combined with the sequence tags to learn the correlation constraints. Finally, we identified and extracted the arguments by the tag sequence. [Results] The accuracy, recall and F1 values of the proposed model were 87.6%, 77.2% and 82.1%, which were higher than results of the GuwenBERT-LSTM, Bert-LSTM, RoBERTa-LSTM, Bert-CRF and RoBERTa-CRF on the same dataset. [Limitations] The size of the experimental dataset needs to be expanded, which could make the topic categories more balanced. [Conclusions] The RoBERTa-CRF model constructed in this paper could effectively extract events from ancient Chinese books.

Key wordsRoBERTa    CRF    Event Extraction    Ancient Chinese Language
收稿日期: 2021-01-29      出版日期: 2021-08-11
ZTFLH:  TP391  
基金资助:*南京农业大学中央高校基本科研业务费(SKCX2020006);中国博士后面上基金(2020M681652)
通讯作者: 何琳,ORCID:0000-0002-4207-3588     E-mail: helin@njau.edu.cn
引用本文:   
喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
Yu Xuehan, He Lin, Xu Jian. Extracting Events from Ancient Books Based on RoBERTa-CRF. Data Analysis and Knowledge Discovery, 2021, 5(7): 26-35.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0094      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I7/26
Fig.1  基于RoBERTa-CRF的古文历史事件抽取
触发词 事件类型 论元角色
伐、敗、入、取、侵、討、圍、滅、戰、追、克、降、襲、執、攻、獲、門、徼、軍、逐 征战 时间、进攻方、防守方、战争原因、战争地点、战利品、助战方、参与人物
殺、弑 戕杀 时间、进攻方、受害人、战争原因、战争地点、战利品、助战方
救、援 救援 时间、援军、被救方、战争原因、战争地点、敌军、助战方
Table 1  《左传》战争句事件类型及论元角色
预训练模型 BERT RoBERTa GuwenBERT
本文调用的模型名 BERT-Base, Chinese RoBERTa-wwm-ext, Chinese Ethanyt/guwenBERT-Base
训练数据 中文维基百科 中文维基百科 殆知阁古文文献
字形 简体中文、繁体中文 简体中文、繁体中文 简体中文
句子切分粒度 以字为粒度 以词为粒度 以字为粒度
词表大小 21 128 21 128 23 292
支持框架 Pytorch、TensorFlow Pytorch、TensorFlow Pytorch
是否采用NSP函数
是否选用WWM技术
Table 2  三种预训练模型的区别比较
Fig.2  RoBERTa-CRF模型的整体结构
Fig.3  事件标注样例
参数名 参数值
序列长度(maxlen) 128
迭代次数(epochs) 45
每批训练大小(batch_size) 32
学习率(learning_rate) 0.000 02
CRF层的学习率(crf_lr_multiplier) 100
Table 3  实验模型参数设置
实验编号 模型 精确率 召回率 F1值
a GuwenBERT - LSTM 68.3% 45.7% 54.7%
b BERT-LSTM 73.4% 64.6% 68.7%
c RoBERTa -LSTM 77.2% 66.2% 71.3%
d BERT-CRF 85.0% 74.9% 79.7%
e RoBERTa-CRF 87.6% 77.2% 82.1%
Table 4  不同模型的抽取性能比较
事件类型 精确率 召回率 F1值
战争-征战 87.1% 76.9% 81.7%
战争-戕杀 80.0% 50.0% 61.5%
战争-救援 96.6% 93.3% 94.9%
Table 5  不同事件类型的论元抽取性能比较
事件类型 论元角色 精确率 召回率 F1值
战争-征战 时间 98.5% 100.0% 99.3%
进攻方 88.3% 75.7% 81.5%
防守方 92.9% 76.5% 83.9%
战争原因 94.4% 73.9% 82.9%
战争地点 88.0% 84.6% 86.3%
战利品 71.4% 55.6% 62.5%
助战方 66.7% 40.0% 50.0%
参与人物 25.0% 20.0% 22.2%
Table 6  不同论元角色的抽取性能比较
[1] 夏翠娟. 面向人文研究的“数据基础设施”建设——试论图书馆学对数字人文的方法论贡献[J]. 中国图书馆学报, 2020, 46(3):24-37.
[1] (Xia Cuijuan. The Construction of “Data Infrastructure” for Humanities Research: The Methodological Contribution of Library Science to Digital Humanities[J]. Journal of Library Science in China, 2020, 46(3):24-37.)
[2] 李章超, 李忠凯, 何琳. 《左传》战争事件抽取技术研究[J]. 图书情报工作, 2020, 64(7):20-29.
[2] (Li Zhangchao, Li Zhongkai, He Lin. Study on the Extraction Method of War Events in Zuo Zhuan[J]. Library and Information Service, 2020, 64(7):20-29.)
[3] 陈佩辉. 人文数据库建设中人文学者何为——以《全宋文》墓志铭亲属信息提取为例[J]. 图书馆论坛, 2019, 39(5):17-23.
[3] (Chen Peihui. What Humanities Scholars Can Do in the Construction of Humanities Databases——Taking the Extraction of Kinship Data from Epitaphs in Quansongwen for Example[J]. Library Forum, 2019, 39(5):17-23.)
[4] 刘忠宝, 党建飞, 张志剑. 《史记》历史事件自动抽取与事理图谱构建研究[J]. 图书情报工作, 2020, 64(11):116-124.
[4] (Liu Zhongbao, Dang Jianfei, Zhang Zhijian. Research on Automatic Extraction of Historical Events and Construction of Event Graph Based on Historical Records[J]. Library and Information Service, 2020, 64(11):116-124.)
[5] Riloff E. Automatically Constructing a Dictionary for Information Extraction Tasks[C]// Proceedings of the 11th National Conference on Artificial Intelligence. 1993: 811-816.
[6] Cohen K B, Verspoor K, Johnson H L, et al. High-precision Biological Event Extraction with a Concept Recognizer[C]// Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task. Association for Computational Linguistics, 2009:50-58.
[7] Arendarenko E, Kakkonen T. Ontology-Based Information and Event Extraction for Business Intelligence[C]// Proceedings of the 15th International Conference on Artificial Intelligence: Methodology, Systems, and Applications. Springer Berlin Heidelberg, 2012: 89-102.
[8] 陈慧炜. 刑事案件文本信息抽取研究[D]. 南京: 南京师范大学, 2011.
[8] (Chen Huiwei. Research on Text Information Extraction of Criminal Cases[D]. Nanjing: Nanjing Normal University, 2011.)
[9] 赵文娟, 刘忠宝, 王永芳. 基于句法依存分析的事件角色填充研究[J]. 情报科学, 2017, 35(7):65-69.
[9] (Zhao Wenjuan, Liu Zhongbao, Wang Yongfang. Research on Event Role Annotation Based on Syntactic Dependency Analysis[J]. Information Science, 2017, 35(7):65-69.)
[10] Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. 2015: 167-176.
[11] Sha L, Qian F, Chang B, et al. Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018: 5916-5923.
[12] Duan S, He R, Zhao W. Exploiting Document Level Information to Improve Event Detection via Recurrent Neural Networks[C]// Proceedings of the 8th International Joint Conference on Natural Language Processing. 2017: 352-361.
[13] 阮元. 十三经注疏[M]. 北京: 中华书局, 1980.
[13] (Ruan Yuan. The Confucian Bible[M]. Beijing: China Publishing House, 1980.)
[14] 李学勤. 春秋左传正义[M]. 北京: 北京大学出版社, 1999.
[14] (Li Xueqin. The Standard of Chunqiu Zuozhuan[M]. Beijing: Peking University Press, 1999.)
[15] 朱宝庆. 左氏兵法[M]. 西安: 陕西人民出版社, 1991.
[15] (Zhu Baoqing. Zuo’s Art of War[M]. Xi’an: Shaanxi People’s Publishing House, 1991.)
[16] 中国军事史编写组. 中国历代战争年表[M]. 北京: 解放军出版社, 2003.
[16] (Compilation Group of Chinese Military History. Chronology of Chinese Wars[M]. Beijing: People’s Liberation Army Press, 2003.)
[17] 邓勇. 王霸: 正义与秩序——从春秋战争到普遍正义[D]. 武汉:武汉大学, 2007: 270-295.
[17] (Deng Yong. Wang-Ba: Justice and Order——From Wars in Spring-Autumn Period to Universal Justice[D]. Wuhan: Wuhan University, 2007: 270-295.)
[18] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv:1810.04805.
[19] Cui Y M, Che W X, Liu T, et al. Pre-Training with Whole Word Masking for Chinese BERT[OL]. arXiv Preprint, arXiv: 1906. 08101.
[20] 阎覃. GuwenBERT:古文预训练语言模型(古文BERT)[EB/OL]. [2020-11-22]. https://github.com/Ethan-yt/guwenbert.
[20] (Yan Tan. GuwenBERT:a Pre-trained Language Model for Classical Chinese (Literary Chinese) [EB/OL]. [2020-11-22]. https://github.com/Ethan-yt/guwenbert.)
[1] 陈星月, 倪丽萍, 倪志伟. 基于ELECTRA模型与词性特征的金融事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 36-47.
[2] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[3] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[4] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[5] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[6] 王毅,沈喆,姚毅凡,成颖. 领域事件图谱构建方法综述*[J]. 数据分析与知识发现, 2020, 4(10): 1-13.
[7] 马娜,张智雄,吴朋民. 基于特征融合的术语型引用对象自动识别方法研究*[J]. 数据分析与知识发现, 2020, 4(1): 89-98.
[8] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[9] 朱笑笑,杨尊琦,刘婧. 基于Bi-LSTM和CRF的药品不良反应抽取模型构建*[J]. 数据分析与知识发现, 2019, 3(2): 90-97.
[10] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[11] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[12] 齐惠颖, 郭建光. 基于CDISC标准的多源临床研究数据整合关键技术与实现*[J]. 数据分析与知识发现, 2018, 2(5): 88-93.
[13] 王晓玉, 李斌. 基于CRFs和词典信息的中古汉语自动分词*[J]. 数据分析与知识发现, 2017, 1(5): 62-70.
[14] 鲍玉来,毕强. 蒙古文音乐领域的语义检索初探*[J]. 现代图书情报技术, 2016, 32(11): 94-100.
[15] 孟美任, 丁晟春. 在线中文商品评论可信度研究[J]. 现代图书情报技术, 2013, 29(9): 60-66.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn