数据分析与知识发现  2024, Vol. 8 Issue (5): 59-67
1武汉大学计算机学院 武汉 430072
2武汉大学文化遗产智能计算实验室 武汉 430072
3武汉大学信息管理学院 武汉 430072
4武汉大学历史学院 武汉 430072
Intelligent Completion of Ancient Texts Based on Pre-trained Language Models
Li Jiajun1,Ming Can1,Guo Zhihao1,Qian Tieyun1,2,Peng Zhiyong1,2,Wang Xiaoguang2,3,Li Xuhui2,3,Li Jing2,4()
1School of Computer Science, Wuhan University, Wuhan 430072, China
2Intellectual Computing Laboratory for Cultural Heritage, Wuhan University, Wuhan 430072, China
3School of Information Management, Wuhan University, Wuhan 430072, China
4School of History, Wuhan University, Wuhan 430072, China
全文: PDF (779 KB)   HTML ( 14
【目的】 为古籍补全任务提供一种基于预训练语言模型的新方法,利用不同语义层次和简繁体预训练语言模型获得的表示,构建混合专家系统和简繁融合模型实现古籍补全。【方法】 针对传世文献和出土文献分别设计基于混合专家系统的模型和简繁融合模型,在不同场景下充分融合与挖掘模型能力,进一步提升模型古籍补全的能力。【结果】 使用自行构建的传世文献数据集以及出土文献数据集,补全任务的准确率分别达到70.14%和57.13%。【局限】 只从自然语言处理角度出发,未来可以利用多模态技术,计算机视觉与自然语言处理相结合,整合图像信息和语义信息两个维度,可能会有更好的效果。【结论】 在构建的传世文献和出土文献数据集上进行验证,达到较高的准确率,为古籍补全任务提供了一种具有竞争力的解决思路。

关键词 古籍数字化预训练语言模型混合专家系统    

[Objective] This paper proposes a new method based on pre-trained language models for completing ancient texts, utilizing representations obtained from pre-training models at different semantic levels and for simplified and traditional Chinese characters. The method constructs a mixture-of-experts system and a simplified-traditional Chinese fusion model to complete ancient texts. [Methods] We designed the mixture-of-experts system-based model for transmitted texts and constructed the simplified-traditional Chinese character fusion model for excavated literature. We fully integrated and explored the model’s capabilities in different scenarios to improve its ability to complete ancient texts. [Results] We examined the new models with self-constructed datasets of transmitted and excavated texts. The models achieved accuracy of 70.14% and 57.13% for the completion task. [Limitations] We only utilized natural language processing approaches. Future improvements involve leveraging multimodal techniques, combining computer vision with natural language processing, and integrating image and semantic information to yield better results. [Conclusions] The proposed models achieve high accuracy on the constructed datasets of ancient literature, providing a competitive solution for completing ancient texts.

Key wordsDigitization of Ancient Books    Pre-trained Language Models    Mixture-of-Experts Systems
收稿日期: 2023-03-04      出版日期: 2024-04-17
ZTFLH:  G350  
通讯作者: 李静, ORCID:0009-0006-9458-8379,。   
李嘉俊, 明灿, 郭志浩, 钱铁云, 彭智勇, 王晓光, 李旭晖, 李静. 基于预训练语言模型的古籍文本智能补全研究*[J]. 数据分析与知识发现, 2024, 8(5): 59-67.
Li Jiajun, Ming Can, Guo Zhihao, Qian Tieyun, Peng Zhiyong, Wang Xiaoguang, Li Xuhui, Li Jing. Intelligent Completion of Ancient Texts Based on Pre-trained Language Models. Data Analysis and Knowledge Discovery, 2024, 8(5): 59-67.
名称 内容
古籍原文 天地不仁,以万物为刍狗;圣人不仁,以百姓为刍狗。
分词结果 天地/不仁,以/万物/为/刍狗;圣人/不仁,以/百姓/为/刍狗/。
随机遮蔽 天地[MASK]仁,[MASK]万物为刍狗;圣[MASK]不仁,以百[MASK]为刍狗。
全词遮蔽 天地不仁,以[MASK][MASK]为刍狗;圣人[MASK][MASK],以百姓为刍狗。
范围遮蔽 天地不仁,以万[MASK][MASK] [MASK][MASK];圣人不仁,以百姓为刍狗。
Table 1  子任务训练数据举例
Fig.1  基于混合专家系统的古籍补全模型
Fig.2  简繁融合模型
模型 语料库 类型 参数量
GuwenBERT 殆知阁 103.96MB
SikuRoBERTa 四库全书 108.95MB
Table 2  简繁模型异同
模型 准确率/% MRR
GuwenBERT-base 69.06 0.035 3
SikuRoBERTa 62.37 0.031 4
Table 3  传世文献基线微调结果
模型 准确率/% MRR
GuwenBERT-base 52.54 0.028 8
SikuRoBERTa 55.04 0.030 7
Table 4  出土文献基线微调结果
模型 准确率/% MRR
GuwenBERT-base 69.06 0.035 3
混合专家系统 70.14 0.036 1
Table 5  基于混合专家系统的古籍补全模型实验结果
模型 准确率/% MRR
GuwenBERT-base+后训练 55.04 0.030 7
简繁融合模型 57.13 0.032 0
Table 6  微调基线结果
Fig.3  [MASK]位置一的模型输出
Fig.4  [MASK]位置二的模型输出
