Please wait a minute...
Advanced Search
数据分析与知识发现  2021, Vol. 5 Issue (3): 25-34     https://doi.org/10.11925/infotech.2096-3467.2019.1033
  专题 本期目录 | 过刊浏览 | 高级检索 |
面向海量典籍文本的深度学习自动断句与标点平台构建研究*
王倩1,王东波1,2(),李斌3,许超3
1南京农业大学信息管理学院 南京 210095
2南京农业大学领域知识关联研究中心 南京 210095
3南京师范大学文学院 南京 210097
Deep Learning Based Automatic Sentence Segmentation and Punctuation Model for Massive Classical Chinese Literature
Wang Qian1,Wang Dongbo1,2(),Li Bin3,Xu Chao3
1College of Information Management, Nanjing Agricultural University, Nanjing 210095, China
2Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China
3College of Literature, Nanjing Normal University, Nanjing 210097, China
全文: PDF (7539 KB)   HTML ( 8
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 促进数字化古汉语的组织与利用,通过建立标注体系并构建层叠深度学习模型实现古汉语自动断句与标点,从而推动人文社科领域的发展。【方法】 以《四库全书》构成海量典籍的语料库,将自动断句与标点作为序列标注问题研究,确定层叠式的思路。通过构建BERT-LSTM-CRF模型得到未断句古文的自动断句结果,并将该结果作为新的特征,输入到多特征LSTM-CRF模型,迭代学习,最终给出标点标记。利用训练出的模型,在Django框架下搭建相应的应用平台。【结果】 实验结果表明,在大规模语料下,本文方法针对经、史、子、集4部自动断句与标点的调和平均值分别为86.41%与90.84%。【局限】 对于标点体系的处理有待细化。【结论】 所利用的模型显著提升任务效果,所搭建的应用平台实现是数字人文工程化的体现。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王倩
王东波
李斌
许超
关键词 自动断句数字人文BERT古汉语    
Abstract

[Objective] This study establishes an annotation system with cascaded deep learning model, aiming to automatically conduct sentence segmentation and punctuation for ancient Chinese literature. [Methods] First, we created a massive corpus of Chinese books from “Siku Quanshu”. Then, we studied the automatic sentence segmentation and punctuation as sequence labeling issues, and determined the cascaded ideas. Third, we obtained the results of automatic sentence segmentation for the uninterrupted sentences based on the BERT-LSTM-CRF model. Fourth, we processed these results with the multi-feature LSTM-CRF model and received the final punctuation marks after iterative learning. [Results] We built an application platform with the trained model and the Django framework. The average F values of the proposed method for automatic sentence segmentation and punctuation were 86.41% and 90.84%, respectively. [Limitations] The punctuation system needs to be refined. [Conclusions] The proposed model and platform significantly improve the sentence segmentation and punctuation of ancient Chinese literature, which benefits digital humanity and social science projects in China.

Key wordsAutomatic Sentence Segmentation    Digital Humanities    BERT    Ancient Chinese
收稿日期: 2019-09-11      出版日期: 2021-04-12
ZTFLH:  G255  
基金资助:*国家自然科学基金面上项目(71673143);国家社会科学基金重大项目(15ZDB127)
通讯作者: 王东波     E-mail: db.wang@njau.edu.cn
引用本文:   
王倩,王东波,李斌,许超. 面向海量典籍文本的深度学习自动断句与标点平台构建研究*[J]. 数据分析与知识发现, 2021, 5(3): 25-34.
Wang Qian,Wang Dongbo,Li Bin,Xu Chao. Deep Learning Based Automatic Sentence Segmentation and Punctuation Model for Massive Classical Chinese Literature. Data Analysis and Knowledge Discovery, 2021, 5(3): 25-34.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.1033      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2021/V5/I3/25
Fig.1  BERT生成语境化的字嵌入
Fig.2  LSTM神经网络模型
Fig.3  实验流程示意图
类别 训练集 验证集 测试集 总计
经部 4 572 819 575 947 572 576 5 721 342
史部 31 446 274 3 920 904 3 930 548 39 297 726
子部 19 434 858 2 426 688 2 428 228 24 289 774
集部 26 795 226 3 343 104 3 344 001 33 482 331
Table 1  各类别古籍数据
Fig.4  BERT-LSTM-CRF示意图
Fig.5  多特征的LSTM-CRF示意图
观测序列 5-tag
S
B
I
I
I
J
E
B
J
E
Table 2  BERT-LSTM-CRF模型标注体系标注示例
观测序列 特征 标签
B O
I O
J O
E D
B O
I O
J- O
E D
B O
I O
J O
E D
B O
I O
I O
I O
I O
J O
E J
Table 3  多特征LSTM-CRF模型标注体系标注示例
Fig.6  自动断句与标点模型的评价结果
Fig.7  预训练模型对断句效果的影响对比
指标 S(书名号) W(问号) F(分号) G(感叹号) D(逗号) M(冒号) J(句号) 总计
P 92.98 83.39 63.40 70.81 90.73 97.14 91.55 91.05
R 91.45 87.22 37.90 38.76 94.80 95.63 87.88 91.08
F 92.21 85.26 47.44 50.10 92.72 96.38 89.42 91.07
Table 4  经部自动标点结果评价(%)
Fig.8  古汉语句读自动标记平台首页
Fig.9  句子级别自动断句与标点标面
Fig.10  文本级别自动断句与标点页面
[1] 阚景忠. 古文不标点断句的文化阐释[J]. 徐州师范大学学报(哲学社会科学版), 2005,31(2):67-69.
[1] ( Kan Jingzhong. Cultural Interpretation of Non-Punctuation[J]. Journal of Xuzhou Normal University (Philosophy and Social Sciences Edition), 2005,31(2):67-69.)
[2] 叶方石. 文言文断句标点的方法与技巧[J]. 长江工程职业技术学院学报, 2012,29(1):75-77.
[2] ( Ye Fangshi. On Methods and Skills of Punctuation in Classical Chinese[J]. Journal of Changjiang Engineering Vocational College, 2012,29(1):75-77.)
[3] 陈天莹, 陈蓉, 潘璐璐, 等. 基于前后文n-gram模型的古汉语句子切分[J]. 计算机工程, 2007,33(3):192-193, 196.
[3] ( Chen Tianying, Chen Rong, Pan Pan, et al. Archaic Chinese Punctuating Sentences Based on Context n-gram Model[J]. Computer Engineering, 2007,33(3):192-193, 196.)
[4] 黄建年, 侯汉清. 农业古籍断句标点模式研究[J]. 中文信息学报, 2008,22(4):31-38.
[4] ( Huang Jiannian, Hou Hanqing. On Sentence Segmentation and Punctuation Model for Ancient Books on Agriculture[J]. Journal of Chinese Information Processing, 2008,22(4):31-38.)
[5] 张开旭, 夏云庆, 宇航. 基于条件随机场的古汉语自动断句与标点方法[J]. 清华大学学报(自然科学版), 2009,49(10):1733-1736.
[5] ( Zhang Kaixu, Xia Yunqing, Yu Hang. CRF-Based Approach to Sentence Segmentation and Punctuation for Ancient Chinese Prose[J]. Journal of Tsinghua University (Science and Technology), 2009,49(10):1733-1736.)
[6] 张合, 王晓东, 杨建宇, 等. 一种基于层叠CRF的古文断句与句读标记方法[J]. 计算机应用研究, 2009,26(9):3326-3329.
[6] ( Zhang He, Wang Xiaodong, Yang Jianyu, et al. Method of Sentence Segmentation and Punctuating for Ancient Chinese Literatures Based on Cascaded CRF[J]. Application Research of Computers, 2009,26(9):3326-3329.)
[7] 王博立, 史晓东, 苏劲松. 一种基于循环神经网络的古文断句方法[J]. 北京大学学报(自然科学版), 2017,53(2):255-261.
[7] ( Wang Boli, Shi Xiaodong, Su Jinsong. A Sentence Segmentation Method for Ancient Chinese Texts Based on Recurrent Neural Network[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017,53(2):255-261.)
[8] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810.04805,2018.
[9] Williams D, Hinton G. Learning Representations by Back-Propagating Errors[J]. Nature, 1986,323(6088):533-538.
[10] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997,9(8):1735-1780.
pmid: 9377276
[11] Schuster M, Paliwal K K. Bidirectional Recurrent Neural Networks[J]. IEEE Transactions on Signal Processing, 1997,45(11):2673-2681.
[12] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014,15(1):1929-1958.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[4] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[5] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[6] 喻雪寒, 何琳, 徐健. 基于RoBERTa-CRF的古文历史事件抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 26-35.
[7] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[8] 刘文斌, 何彦青, 吴振峰, 董诚. 基于BERT和多相似度融合的句子对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 48-58.
[9] 尹鹏博,潘伟民,张海军,陈德刚. 基于BERT-BiGA模型的标题党新闻识别研究*[J]. 数据分析与知识发现, 2021, 5(6): 126-134.
[10] 宋若璇,钱力,杜宇. 基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究*[J]. 数据分析与知识发现, 2021, 5(5): 10-20.
[11] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[12] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[13] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[14] 纪有书, 王东波, 黄水清. 基于词对齐的古汉语同义词自动抽取研究*——以前四史典籍为例[J]. 数据分析与知识发现, 2021, 5(11): 135-144.
[15] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn