数据分析与知识发现  2018, Vol. 2 Issue (7): 89-100
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
唐慧慧, 王昊(), 张紫玄, 王雪颖
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室 南京 210023
Extracting Names of Historical Events Based on Chinese Character Tags
Tang Huihui, Wang Hao(), Zhang Zixuan, Wang Xueying
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
目的】探讨中文历史事件名识别和抽取的最优模型, 用于历史文本的知识重组和中国历史事件本体的构建。【方法】以魏晋南北朝史书文本为原始语料, 进行自动标引, 运用条件随机场(CRFs)模型, 以单个汉字为标注对象, 探讨不同汉字角色集合、不同特征对历史事件名识别的影响, 寻找最佳模型。【结果】经过实验论证, 得到字素的词性倾向和姓氏特征相累加的最佳历史事件名识别模型, F1值高达98.74%, 该最佳模型在两个开放场景中的应用也得到较好的识别效果。【局限】由于史书文本的语料特性, 本实验的数据量不是特别充足; 未在本实验环境下验证汉字角色标注相较于词角色标注的优越性。【结论】定义恰当的角色和特征集合后, CRFs模型可以有效地识别和抽取历史文本中的历史事件名。

关键词 历史事件名条件随机场汉字标注命名实体识别本体学习    

[Objective] This paper proposes a model to extract the names of Chinese historical events, aiming to reorganize knowledge from texts and construct the ontology for these events. [Methods] We built the proposed model with conditional random fields(CRFs) and automatically tagging technology, based on the historical texts of the Wei, Jin, Northern and Southern Dynasties. Then, we explored the influence of different Chinese characters and features on recognizing event names. [Results] We constructed the best model based on the features of characters and the surnames. The F1 value of this model was as high as 98.74%. This model was examined with two open scenarios and achieved good results. [Limitations] The size of our training corpus needs to be expanded. More research is needed to compare results of single Chinese character tags and the phrases. [Conclusions] The CRFs model could effectively identify the names of Chinese historical events under appropriate working conditions.

Key wordsHistorical Event Name    Conditional Random Fields    Chinese Character Role Labeling    Named Entity Recognition    Ontology Learning
收稿日期: 2018-01-15      出版日期: 2018-08-15
ZTFLH:  TP393 G350  
基金资助:*本文系国家自然科学基金项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号: 71503121)和“江苏青年社科英才”人才培养项目的研究成果之一
唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
Tang Huihui,Wang Hao,Zhang Zixuan,Wang Xueying. Extracting Names of Historical Events Based on Chinese Character Tags. Data Analysis and Knowledge Discovery, 2018, 2(7): 89-100.
编号 书名 作者/主编 编号 书名 作者/主编
1 《中国全史》[37] 史仲文、胡晓林 8 《南史》[38] 李延寿
2 《中国通史》[39] 范文澜 9 《梁书》[40] 姚思廉
3 《细说两晋南北朝》[41] 沈起炜 10 《陈书》[42] 姚思廉
4 《魏晋南北朝史讲演录》[43] 陈寅恪 11 《北齐书》[44] 李百药
5 《魏晋南北朝史》[35] 王仲荤 12 《三国演义》[45] 罗贯中
6 《魏书》[46] 魏收 13 《三国志》[47] 陈寿, 等
7 《晋书》[48] 房玄龄, 等 14 维基百科词条[49] 镜像网站
角色 说明 示例
B 历史事件名的首字 如“淝”之于“淝水之战”
M 历史事件名的中间字 如“水”之于“淝水之战”
E 历史事件名的尾字 如“战”之于“淝水之战”
P 历史事件名的前一个字 如“当”之于“当淝水之战发生后”
Q 历史事件名的后一个字 如“发”之于“当淝水之战发生后”
A 非历史事件名的其他汉字 如“生”之于“当淝水之战发生后”
T 符号或数字串 如“208”之于“公元208年”
观察序列 取值情况 描述 示例
字素的词性倾向(C) a 形容词 Z C X F G L Role
b 区别词 n Y Y X V A
…… …… n N Z X V A
etc 其他 a N X X Y A
姓氏特征(X) Y 姓氏字 m Y Z X V A
N 非姓氏字 v N X X Z A
领域特征(F) X 一级领域常用字 p N X X Z A
Y 二级领域常用字 n N Z X Z A
Z 其他 v N Z X Z P
级别特征(G) X 一级常用字 n Y Z X Z B
Y 二级常用字 j N Z Z Z M
Z 其他 v N X X Z M
分类特征(L) X 指事字 n N Y X V E
Y 象形字 r N Z X V Q
Z 形声字 f N X X V A
U 会意字 v N Z X Z A
V 其他类型字 n N Z X V A
汉字序列(Z) 汉字 字形特征 u N X X Z A
方案 观察内容 评判标准 目的
1 字角色 5个字角色集合:
互相对比事件识别结果 选用识别效果更好的字角色集合,
2 单特征 字素的词性倾向(C) 参照上一步中字角色标注下最好的识别效果, 高于该结果的记为正特征, 否则为负特征 选用正特征, 参与下一步组合特征的实验
3 多特征 将正特征分次组合, 形成
参照上一步中特征约束下最好的识别效果 选择识别效果最佳的特征集合
模板名称 字角色集合 原历史事件数 识别出
TMPT0 5 398 388 386
TMPT1 7 398 383 381
模板名称 字角色集合 观察特征 原历史事件数 识别出历史事件数 正确识别历史事件数
TMPT2 5 字素的词性倾向C 398 395 391
TMPT3 5 姓氏特征X 398 391 389
TMPT4 5 领域特征F 398 389 384
TMPT5 5 分类特征L 398 390 387
TMPT6 5 级别特征G 398 394 390
模板名称 字角色标注 观察特征 原历史事件数 识别出历史事件数 正确识别历史事件数
TMPT7 5 CX 398 396 392
TMPT8 5 CXG 398 395 391
TMPT9 5 CXGL 398 393 388
应用场景 原历史事件数 识别出历史事件数 正确识别历史事件数 P R F1 SP
魏晋南北朝 119 158 116 73.42% 97.48% 83.75% 98.74%
隋唐时期 62 52 21 40.38% 33.87% 36.84% 97.91%
