Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
基于多任务联合学习的古代经典礼学文献礼俗专名自动识别方法研究
斯日古楞,林民,郭振东,张树钧,李斌,高颖杰
(内蒙古师范大学文学院 呼和浩特  010022) (内蒙古民族大学计算机科学与技术学院 通辽  028000) (内蒙古师范大学计算机科学技术学院 呼和浩特  010022) (海南大学计算机科学与技术学院 海口  570228)
Multi-task Learning for Ancient Ritual Literature Etiquette Entity Recognition
Siriguleng,Lin Min,Guo Zhendong,Zhang Shujun,Li Bin,Gao Yingjie
(School of Chinese Language and Literature, Inner Mongolia Normal University, Hohhot 010022, China) (College of Computer Science and Technology, Inner Mongolia MINZU University, Tongliao 028000, China) (College of Computer Science and Technology, Inner Mongolia Normal University, Hohhot 010022, China) (School of Computer Science and Technology, Hainan University, Haikou 570228, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]通用命名实体识别在不同领域研究中有局限性,故需进行特定领域礼俗专名识别研究以实现古代礼俗知识结构化组织,这对于深度挖掘中国古代礼仪文化内涵具有重要意义。

[方法]本文提出了一种多任务深度学习的多类型礼俗专名自动识别方法,首先构建包含六个类别的礼俗专名标注语料库,然后构建融合古文预训练语言模型的礼俗专名识别和自动标点一体化模型(MJL-SikuRoBERTa-BiGRU-CRF)。该模型利用SikuRoBERTa和BiGRU训练语料库并获取上下文语义信息,再由CRF层对两个子任务进行标签约束,生成全局最优的专名和标点标签序列。

[结果]所提模型在礼俗专名识别任务上的F1值为84.34%,在自动标点任务上的F1值为75.30%。其中,宫室、器物、服饰专名类别效果显著,F1值达到85%以上,车具、饮食、物产类别上表现稍显不足,F1值达到76%~81%。

[局限]模型未将更细粒度专名分类上进行验证。另外,本文也尝试了对专名识别方法进行数据增强,以提高礼俗专名识别效果,但并没有将其应用于所有类别。

[结论]本文构建的一体化模型更适用于中国古代礼学文献的礼俗专名识别任务,可为古代礼仪信息抽取、知识库自动构建提供有效支持。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 专名识别古代礼学文献古汉语预训练模型多任务学习     
Abstract

[Objective] General NER has limitations in different research fields, hence specific domain NER for etiquette entity is necessary for structured organization of ancient ceremonial knowledge, facilitating in-depth exploration of cultural connotations of ancient Chinese ritual etiquette. [Methods] This paper introduces a multi-task deep learning approach for automatic recognition of diverse etiquette entities. We built a named entity annotated corpus with six categories and employed a combined model, MJL-SikuRoBERTa-BiGRU-CRF. SikuRoBERTa and BiGRU extract contextual semantic information, while CRF imposes label constraints on both tasks, generating globally optimal named entity and punctuation label sequences.

[Results] The proposed model has an F1 value of 84.34% on the etiquette recognition task and an F1 value of 75.30% on the automatic punctuation task. Among them, the palace, utensils, and costume moniker categories are effective with an F1 value of more than 85%, while the vehicle, food, and products categories are slightly underperformed with an F1 value of 76%~81%.

[Limitations] The model did not validate finer-grained named entity classification, and the paper attempted to augment named entity recognition for cultural entities, but not across all categories.

[Conclusions] The model constructed in this article is more suitable for named entity recognition tasks in classical Chinese ritual texts and can effectively support information extraction and knowledge graph construction related to ancient rituals.

Key words Etiquette Entity Recognition    Ancient Ritual Literature    Pretrained model for Classical Chinese language    Multi-task Learning
     出版日期: 2024-04-18
ZTFLH:  TP393,G250  
引用本文:   
斯日古楞, 林民, 郭振东, 张树钧, 李斌, 高颖杰. 基于多任务联合学习的古代经典礼学文献礼俗专名自动识别方法研究 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2023.0372.
Siriguleng, Lin Min, Guo Zhendong, Zhang Shujun, Li Bin, Gao Yingjie. Multi-task Learning for Ancient Ritual Literature Etiquette Entity Recognition . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2023.0372      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 韩普, 顾亮, 叶东宇, 陈文祺. 基于多任务和迁移学习的中文医学文献实体识别研究*[J]. 数据分析与知识发现, 2023, 7(9): 136-145.
[2] 曾子明, 张瑜. 基于数据增强和多任务学习的突发公共卫生事件谣言识别研究*[J]. 数据分析与知识发现, 2023, 7(11): 56-67.
[3] 屠振超, 马静. 基于改进文本表示的商品文本分类算法研究*[J]. 数据分析与知识发现, 2022, 6(5): 34-43.
[4] 余传明, 林虹君, 张贞港. 基于多任务深度学习的实体和事件联合抽取模型*[J]. 数据分析与知识发现, 2022, 6(2/3): 117-128.
[5] 杨晗迅, 周德群, 马静, 罗永聪. 基于不确定性损失函数和任务层级注意力机制的多任务谣言检测研究*[J]. 数据分析与知识发现, 2021, 5(7): 101-110.
[6] 姚俊良,乐小虬. 科技查新查新点语义匹配方法研究[J]. 数据分析与知识发现, 2019, 3(6): 50-56.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn