Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (12): 68-75     https://doi.org/10.11925/infotech.2096-3467.2020.0400
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
非物质文化遗产传统音乐术语自动抽取*
刘浏(),秦天允,王东波
南京农业大学信息管理学院 南京 210095
Automatic Extraction of Traditional Music Terms of Intangible Cultural Heritage
Liu Liu(),Qin Tianyun,Wang Dongbo
College of Information Management, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (580 KB)   HTML ( 7
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 围绕实体识别任务实现以传统音乐为对象的非物质文化遗产术语抽取。【方法】 构建基于中国非物质文化遗产网的国家级非物质文化遗产代表性项目的术语标注语料库,并基于CRF模型、LSTM模型、LSTM-CRF模型、BERT模型构建实体识别框架。【结果】 通过性能对比得知,采用BERT模型进行术语抽取取得了最好的效果,平均F1值达91.77%。【局限】 仅对独有术语进行抽取,且训练集偏小。【结论】 基于BERT的实体识别模型能够较好地完成传统音乐术语的自动抽取任务,为非物质文化遗产相关研究提供可靠借鉴。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘浏
秦天允
王东波
关键词 非物质文化遗产数字人文BERT术语抽取实体识别    
Abstract

[Objective] Focus on the task of entity recognition of traditional music terms of intangible cultural heritage. [Methods] This research constructed a corpus of national intangible cultural heritage projects based on the China Intangible Cultural Heritage Network, and built an entity recognition framework on traditional music terms based on the CRF, LSTM, LSTM-CRF, and BERT. [Results] According to the performance comparison, the BERT model for recognition of traditional music terms had achieved a better result, with an average F1 value of 91.77%. [Limitations] This study only extract unique terms, and the training set is small. [Conclusions] The entity recognition model constructed by BERT is a valid model for automatically extracting traditional musical terms of intangible cultural heritage. It can provide a reliable reference for the related research of intangible cultural heritage.

Key wordsIntangible Cultural Heritage    Digital Humanities    BERT    Term Extraction    Entity Recognition
收稿日期: 2020-05-08      出版日期: 2020-12-25
ZTFLH:  TP391  
基金资助:*南京农业大学中央高校基本科研业务费人文社会科学基金项目“食品安全突发事件知识库构建及知识挖掘研究”(SKCX2018003);2017年度江苏省教育厅高校哲学社会科学研究项目“机构投资者高频交易与市场稳定性研究”(2017SJB0039)
通讯作者: 刘浏     E-mail: liuliu@njau.edu.cn
引用本文:   
刘浏,秦天允,王东波. 非物质文化遗产传统音乐术语自动抽取*[J]. 数据分析与知识发现, 2020, 4(12): 68-75.
Liu Liu,Qin Tianyun,Wang Dongbo. Automatic Extraction of Traditional Music Terms of Intangible Cultural Heritage. Data Analysis and Knowledge Discovery, 2020, 4(12): 68-75.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0400      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I12/68
实体类别 类别标记 示例 数量
非遗名称 ICH-TITLE 江河号子、老河口丝弦、
回族宴席曲
1 518
独有术语 ICH-TERM 横抱琵琶、酒歌、六字真言歌 8 881
传承人姓名 ICH-INHERITOR 陈子敬、沈浩初、沈肇州 217
地名 ICH-PLACE 青海省玉树藏族自治州、卫藏地区、安多 2 772
作品名 ICH-WORKS 《对歌》、《口提哥哥》、
《英雄的村庄》
1 396
工具器具名 ICH-INST 琵琶、笛子、唢呐、小管 2 122
Table 1  非物质文化遗产传统音乐类术语汇总
测试编号 准确率(%) 召回率(%) F1值(%)
1 94.94 84.29 89.30
2 94.59 85.10 89.59
3 94.32 89.02 91.59
4 93.92 86.96 90.31
5 96.12 85.64 90.58
6 95.03 91.55 93.26
7 95.71 84.55 89.78
8 96.77 85.27 90.66
9 96.34 86.23 91.00
10 95.31 89.71 92.42
宏平均 95.31 86.83 90.85
Table 2  基于CRF模型的传统音乐实体识别结果
测试编号 准确率(%) 召回率(%) F1值(%)
1 84.12 84.12 84.12
2 83.38 85.80 84.57
3 87.80 88.67 88.24
4 84.32 84.54 84.43
5 88.22 81.87 84.92
6 83.52 85.63 84.56
7 89.02 84.75 86.83
8 85.68 84.58 85.12
9 84.66 86.68 85.62
10 86.90 89.46 88.16
宏平均 85.76 85.61 85.66
Table 3  基于LSTM模型的传统音乐实体识别结果
测试编号 准确率(%) 召回率(%) F1值(%)
1 86.14 86.35 86.25
2 84.96 88.41 86.65
3 87.77 90.15 88.94
4 88.42 86.60 87.50
5 90.96 85.87 88.34
6 85.68 90.99 88.25
7 89.76 84.18 86.88
8 91.29 83.55 87.25
9 91.79 83.99 87.71
10 87.53 91.18 89.32
宏平均 88.43 87.13 87.71
Table 4  基于LSTM-CRF模型的传统音乐实体识别结果
测试编号 准确率(%) 召回率(%) F1值(%)
1 87.96 93.07 90.44
2 89.30 92.15 90.70
3 91.73 95.44 93.55
4 89.35 92.47 90.89
5 91.60 93.82 92.70
6 89.22 94.03 91.56
7 94.48 93.12 93.80
8 91.27 92.99 92.12
9 89.25 90.13 89.69
10 92.73 91.81 92.27
宏平均 90.69 92.90 91.77
Table 5  基于BERT模型的传统音乐实体识别结果
模型 平均准确率(%) 平均召回率(%) 平均F1值(%)
CRF 95.31 86.83 90.85
LSTM 85.76 85.61 85.66
LSTM-CRF 88.43 87.13 87.71
BERT 90.69 92.90 91.77
Table 6  4种模型的平均结果对比
[1] 刘浏, 王东波 . 命名实体识别研究综述[J]. 情报学报, 2018,37(3):329-340.
[1] ( Liu Liu, Wang Dongbo . A Review on Named Entity Recognition[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(3):329-340.)
[2] 刘知远, 孙茂松, 林衍凯 , 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016,53(2):247-261.
[2] ( Liu Zhiyuan, Sun Maosong, Lin Yankai , et al. Knowledge Representation Learning: A Review[J]. Journal of Computer Research and Development, 2016,53(2):247-261.)
[3] 徐增林, 盛泳潘, 贺丽荣 , 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016,45(4):589-606.
[3] ( Xu Zenglin, Sheng Yongpan, He Lirong , et al. Review on Knowledge Graph Techniques[J]. Journal of University of Electronic Science and Technology of China, 2016,45(4):589-606.)
[4] 赖英旭, 李亚娟, 刘静 . 基于本体的水稻育种方法应用知识库构建[J]. 北京工业大学学报, 2019,45(12):1181-1191.
[4] ( Lai Yingxu, Li Yajuan, Liu Jing . Construction of Ontology-based Rice Breeding Method Knowledge Base[J]. Journal of Beijing University of Technology, 2019,45(12):1181-1191.)
[5] 王东波, 高瑞卿, 沈思 , 等. 面向先秦典籍的历史事件基本实体构件自动识别研究[J]. 国家图书馆学刊, 2018,27(1):65-77.
[5] ( Wang Dongbo, Gao Ruiqing, Shen Si , et al. Research on Automatic Recognition of Basic Entity Component of Historic Events for Pre-Qin Classics[J]. Journal of the National Library of China, 2018,27(1):65-77.)
[6] 殷章志, 李欣子, 黄德根 , 等. 融合字词模型的中文命名实体识别研究[J]. 中文信息学报, 2019,33(11):95-100, 106.
[6] ( Yin Zhangzhi, Li Xinzi, Huang Degen , et al. Chinese Named Entity Recognition Ensembled with Character[J]. Journal of Chinese Information Processing, 2019,33(11):95-100, 106.)
[7] 王子牛, 姜猛, 高建瓴 , 等. 基于BERT的中文命名实体识别方法[J]. 计算机科学, 2019,46(S2):138-142.
[7] ( Wang Ziniu, Jiang Meng, Gao Jianling , et al. Chinese Named Entity Recognition Method Based on BERT[J]. Computer Science, 2019,46(S2):138-142.)
[8] 张晓海, 操新文, 张敏 . 基于自注意力机制的军事命名实体识别[J]. 指挥控制与仿真, 2019,41(6):29-33.
[8] ( Zhang Xiaohai, Cao Xinwen, Zhang Min . Military Named Entity Recognition Based on Self-Attention Mechanism[J]. Command Control & Simulation, 2019,41(6):29-33.)
[9] 程钟慧, 陈珂, 陈刚 , 等. 基于强化学习协同训练的命名实体识别方法[J]. 软件工程, 2020,23(1):7-11.
[9] ( Cheng Zhonghui, Chen Ke, Chen Gang , et al. Named Entity Recognition Method Based on Co-training of Reinforcement Learning[J]. Software Engineering, 2020,23(1):7-11.)
[10] 曹依依, 周应华, 申发海 , 等. 基于CNN-CRF的中文电子病历命名实体识别研究[J]. 重庆邮电大学学报(自然科学版), 2019,31(6):869-875.
[10] ( Cao Yiyi, Zhou Yinghua, Shen Fahai , et al. Research on Named Entity Recognition of Chinese Electronic Medical Record Based on CNN-CRF[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2019,31(6):869-875.)
[11] 王月, 王孟轩, 张胜 , 等. 基于BERT的警情文本命名实体识别[J]. 计算机应用, 2020,40(2):535-540.
[11] ( Wang Yue, Wang Mengxuan, Zhang Sheng , et al. Alarm Text Named Entity Recognition Based on BERT[J]. Journal of Computer Applications, 2020,40(2):535-540.)
[12] 李妮, 关焕梅, 杨飘 , 等. 基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 山东大学学报(理学版), 2020,55(1):102-109.
[12] ( Li Ni, Guan Huanmei, Yang Piao , et al. BERT-IDCNN-CRF for Named Entity Recognition in Chinese[J]. Journal of Shandong University (Natural Science), 2020,55(1):102-109.)
[13] 黄永林, 谈国新 . 中国非物质文化遗产数字化保护与开发研究[J]. 华中师范大学学报(人文社会科学版), 2012,51(2):49-55.
[13] ( Huang Yonglin, Tan Guoxin . Research on Digital Protection and Development of China’s Intangible Cultural Heritage[J]. Journal of Huazhong Normal University (Humanities and Social Sciences), 2012,51(2):49-55.)
[14] 黄永林 . 数字化背景下非物质文化遗产的保护与利用[J]. 文化遗产, 2015(1):1-10, 157.
[14] ( Huang Yonglin . The Protection and Utilization of Intangible Cultural Heritage Under the Digital Background[J]. Cultural Heritage, 2015(1):1-10, 157.)
[15] 侯西龙, 谈国新, 庄文杰 , 等. 基于关联数据的非物质文化遗产知识管理研究[J]. 中国图书馆学报, 2019,45(2):88-108.
[15] ( Hou Xilong, Tan Guoxin, Zhuang Wenjie , et al. Research on Knowledge Management of Intangible Cultural Heritage Based on Linked Data[J]. Journal of Library Science in China, 2019,45(2):88-108.)
[16] 宋俊华 . 关于非物质文化遗产数字化保护的几点思考[J]. 文化遗产, 2015(2):1-8, 157.
[16] ( Song Junhua . Some Thoughts on Digital Protection of Intangible Cultural Heritage[J]. Cultural Heritage, 2015(2):1-8, 157.)
[17] Lafferty J, Mc Calluma, Prreira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of the 18th International Conference on Machine Learning. San Francisco: Margan Kaufmann, 2001: 282-289.
[18] Hochreiter S, Schmidhuber J . Long Short-term Memory[J]. Neural Computation, 1997,9(8):1735-1780.
pmid: 9377276
[19] Graves A, Mohamed A, Hinton G. Speech Recognition with Deep Recurrent Neural Networks [C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. 2013: 6645-6649.
[20] Huang Z, Xu W, Yu K . Bidirectional LSTM-CRF Models for Sequence Tagging[OL]. arXiv Preprint, arXiv: 1508.01991.
[21] Devlin J, Chang M W, Lee K . Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv:1810.04805.
[1] 梁继文,江川,王东波. 基于多特征融合的先秦典籍汉英句子对齐研究*[J]. 数据分析与知识发现, 2020, 4(9): 123-132.
[2] 徐晨飞, 叶海影, 包平. 基于深度学习的方志物产资料实体自动识别模型构建研究*[J]. 数据分析与知识发现, 2020, 4(8): 86-97.
[3] 赵旸, 张智雄, 刘欢, 丁良萍. 基于BERT模型的中文医学文献分类研究*[J]. 数据分析与知识发现, 2020, 4(8): 41-49.
[4] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[5] 张冬瑜,崔紫娟,李映夏,张伟,林鸿飞. 基于Transformer和BERT的名词隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 100-108.
[6] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[7] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[8] 刘婧茹,宋阳,贾睿,张翼鹏,罗勇,马敬东. 基于BiLSTM-CRF中文临床文本中受保护的健康信息识别*[J]. 数据分析与知识发现, 2020, 4(10): 124-133.
[9] 杨海慈,王军. 宋代学术师承知识图谱的构建与可视化[J]. 数据分析与知识发现, 2019, 3(6): 109-116.
[10] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[11] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[12] 陈美杉,夏晨曦. 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *[J]. 数据分析与知识发现, 2019, 3(12): 61-69.
[13] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[14] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[15] 牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn