数据分析与知识发现  2024, Vol. 8 Issue (1): 114-124
1北京大学信息管理系 北京 100871
2北京大学数字人文研究中心 北京 100871
3北京大学外国语学院 北京 100871
Classifying Ancient Chinese Text Relations with Entity Information
Tang Xuemei1,2,Su Qi2,3(),Wang Jun1,2
1Department of Information Management, Peking University, Beijing 100871, China
2Center for Digital Humanities, Peking University, Beijing 100871, China
3School of Foreign Languages, Peking University, Beijing 100871, China
【目的】 将实体信息与预训练语言模型结合应用到古汉语关系分类任务中,构建古汉语关系分类模型。【方法】 首先,在预训练模型输入层中使用特殊标记标出实体对的位置,同时在原关系句之后拼接实体类型描述句;其次,在预练语言模型的输出中进一步提取实体语义信息;然后,通过CNN将每个字符相对于首尾实体的位置信息融入模型中;最后,将句表示、实体语义表示以及CNN输出拼接经过分类器得到关系标签。【结果】 相较于仅使用预训练语言模型,本文模型在Macro F1指标上平均有3.5个百分点的提升。【局限】 通过分析混淆矩阵发现本文模型在有相同实体类型组合的关系上容易出现预测错误。【结论】 在预训练语言模型中结合实体信息能够提高古汉语关系分类的效果,且实验结果证明本文融合实体信息的方法是有效的。

关键词 古汉语关系抽取关系分类预训练语言模型实体信息    

[Objective] This paper integrates entity information with pre-trained language models, which help us classify ancient Chinese relations. [Methods] Firstly, we utilized special tokens in the input layer of the pre-trained model to mark the positions of entity pairs. We also appended entity-type descriptions following the original relation sentences. Secondly, we extracted semantic information of entities from the output of the pre-trained language model. Thirdly, we employed a CNN model to incorporate positional information of each token relative to the start and end entities into the model. Finally, we concatenated sentence representations, entity semantic representations, and CNN outputs and passed them through a classifier to obtain relation labels. [Results] Compared to pre-trained language models, our new model’s Macro F1 score was 3.5% higher on average. [Limitations] Analysis of the confusion matrix reveals a tendency for errors in predicting relations with the same entity type pairs. [Conclusions] Combining entity information and pre-trained language models enhances the effectiveness of ancient Chinese relation classification.

Key wordsAncient Chinese    Relation Extraction    Relation Classification    Pre-trained Language Model    Entity Information
收稿日期: 2022-12-30      出版日期: 2023-03-30
ZTFLH:  TP391  
通讯作者: 苏祺,ORCID:0000-0002-4769-2812,。   
唐雪梅, 苏祺, 王军. 融合实体信息的古汉语关系分类研究*[J]. 数据分析与知识发现, 2024, 8(1): 114-124.
Tang Xuemei, Su Qi, Wang Jun. Classifying Ancient Chinese Text Relations with Entity Information. Data Analysis and Knowledge Discovery, 2024, 8(1): 114-124.
Fig.1  模型框架
编号 关系类型 训练集样本数 验证集样本数 测试集样本数
1 245 65 25
2 70 23 9
3 66 23 12
4 41 13 -
5 22 2 -
6 32 4 -
7 106 44 18
8 113 38 18
9 130 26 20
10 同名于 239 65 28
11 朋友 26 8 -
12 任职 1 062 307 162
13 31 10 7
14 升迁 31 12 -
15 管理 70 20 12
16 隶属于 187 50 29
17 属于 86 18 16
18 归属 34 7 -
19 作战 37 15 12
20 讨伐 44 10 9
21 位于 103 33 17
22 葬于 31 9 -
23 出生地 79 20 -
24 去往 179 47 24
25 依附 49 13 -
总计 3 113 882 418
Table 1  数据集统计信息
Train batch size 16
Evaluation batch size 8
Max sequence length 128
CNN kernel size 2
CNN out channels 20
Learning rate 2e-5
Dropout 0.5
Epochs 50
Table 2  模型超参数设置
模型 特征组合 Micro F1 /% Macro F1 /%
BERT - 90.67 49.06
+entity 91.87 50.90
+entity+type 94.02 54.32
+entity+type+CNN 93.78 51.88
+entity+type+pe+CNN 95.22 52.70
Guwen_BERT - 91.39 51.33
+entity 93.77 52.57
+entity+type 95.93 56.05
+entity+type+CNN 95.22 56.17
+entity+type+pe+CNN 95.22 56.25
RoBERTa - 90.19 50.05
+entity 92.34 51.60
+entity+type 93.06 53.32
+entity+type+CNN 94.74 54.68
+entity+type+pe+CNN 94.26 52.62
Guwen_RoBERTa - 94.02 52.79
+entity 94.74 53.24
+entity+type 95.45 53.45
+entity+type+CNN 95.45 55.57
+entity+type+pe+CNN 95.69 53.18
Table 3  在C-CLUE古汉语关系数据集上的实验结果
模型 Micro F1/% Macro F1/%
Soares等[30](BERT) 89.23 46.33
Wu等[27](BERT) 92.58 49.26
本文(BERT) 95.22 52.70
Table 4  和前人研究实验结果对比
关系分类 Micro F1/% 关系分类 Micro F1/%
子(e1e2 95.83 子(e2e1 100.00
隶属于(e1e2 95.65 隶属于(e2e1 88.89
任职(e1e2 100.00 任职(e2e1 100.00
同名于(e1e2 79.99 同名于(e2e1 96.55
号(e1e2 91.43 号(e2e1 0.00
作战(e1e2 100.00 作战(e2e1 100.00
位于(e1e2 85.71 位于(e2e1 100.00
弟(e1e2 94.12 弟(e2e1 100.00
杀(e1e2 94.74 杀(e2e1 71.43
管理(e1e2 80.00 管理(e2e1 100.00
属于(e1e2 100.00 属于(e2e1 100.00
讨伐(e1e2 90.90 讨伐(e2e1 100.00
去往(e1e2 95.83 名(e1e2 90.90
作(e1e2 100.00 兄(e2e1 91.66
Table 5  Guwen_RoBERTa+entity+type+pe+CNN模型在各类关系上的分类F1值
Fig.2  关系分类混淆矩阵热力图
案例 测试集样本 本文模型(w/o entity) 本文模型
1 嫘祖为【黄帝|PER】正妃,生二子,其后皆有天下:其一曰玄嚣,是为青阳,青阳降居江水。其二曰【昌意|PER】,降居若水 同名于(e1e2 子(e1e2
2 十年,烈王崩,弟【扁|PER】立,是为【显王|PER】。显王五年,贺秦献公,献公称伯。九年,致文武胙於秦孝公。二十五年,秦会诸侯於周 兄(e2e1 同名于(e2e1
3 然王不亲兵,以兵三千属浚而已。浚屯于阴地。河东叛将冯霸杀潞州守将李克恭来降,遣【葛从周|PER】入【潞州|LOC】。李克用遣康君立攻之,从周走河阳 兄(e2e1 管理(e2e1
案例 测试集样本 本文模型(w/o type) 本文模型
4 其后十六年而秦灭赵。其后二十馀年,高帝过赵,问“乐毅有后世乎”对曰“有【乐叔|PER】”高帝封之【乐卿|JOB】,号曰华成君。华成君,乐毅之孙也 子(e1e2 任职(e1e2
5 秦使公子少官率师会诸侯逢泽,朝天子。二十一年,齐败魏马陵。二十二年,卫鞅击魏,虏魏公子卬。封【鞅|PER】为【列侯|JOB】,号商君 任职(e1e2 号(e1e2
6 诸将稍稍得出成皋,从汉王。楚遂拔成皋,欲西。汉使兵距之巩,令其不得西。是时,【彭越|PER】渡河击【楚|ORG】东阿,杀楚将军薛公 杀(e2e1 讨伐(e2e1
Table 6  不同模型关系分类结果
