Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (7): 52-60     https://doi.org/10.11925/infotech.2096-3467.2017.0484
  首届"数据分析与知识发现"学术研讨会专辑(I) 本期目录 | 过刊浏览 | 高级检索 |
基于LSTM模型的中文图书多标签分类研究*
邓三鸿, 傅余洋子(), 王昊
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室(南京大学) 南京 210023
Multi-Label Classification of Chinese Books with LSTM Model
Deng Sanhong, Fu Yuyangzi(), Wang Hao
School of Information Management, Nanjing University, Nanjing 210023
Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210023, China
全文: PDF (1324 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】利用LSTM模型和字嵌入的方法构建分类系统, 提出一种中文图书分类中多标签分类的解决方案。【方法】引入深度学习算法, 利用字嵌入方法和LSTM模型构建分类系统, 对题名、主题词等字段组成的字符串进行学习以训练模型, 并采用构建多个二元分类器的方法解决多标签分类问题, 选择3所高校5个类别的书目数据进行实验。【结果】从整体准确率、各类别精度、召回率、F1值多个指标进行分析, 本文提出的模型均有良好表现, 有较强的实际应用价值。【局限】数据仅涉及中图分类法5个类别, 考虑的分类粒度较粗等。【结论】基于LSTM模型的中文图书分类系统具有预处理简单、增量学习、可迁移性高等优点, 具备可行性和实用性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邓三鸿
傅余洋子
王昊
关键词 LSTM模型深度学习字嵌入图书自动分类多标签分类    
Abstract

[Objective] This paper proposes a new method to automatically cataloguing Chinese books based on LSTM model, aiming to solve the issues facing single or multi-label classification. [Methods] First, we introduced deep learning algorithms to construct a new classification system with character embedding technique. Then, we trained the LSTM model with strings consisting of titles and keywords. Finally, we constructed multiple binary classifiers, which were examined with bibliographic data from three universities. [Results] The proposed model performed well and had practical value. [Limitations] We only analyzed five categories of Chinese bibliographies, and the granularity of classification was coarse. [Conclusions] The proposed Chinese book classification system based on LSTM model could preprocess data and learn incrementally, which could be transferred to other fields.

Key wordsLSTM Model    Deep Learning    Character Embedding    Book Automatic Classification    Multi-label Classification
收稿日期: 2017-05-27      出版日期: 2017-07-26
ZTFLH:  TP391  
基金资助:*本文系国家自然科学基金项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号: 71503121)和中央高校基本科研业务费重点项目“我国图书情报学科知识结构及演化动态研究”(项目编号: 20620140645)的研究成果之一
引用本文:   
邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
Deng Sanhong,Fu Yuyangzi,Wang Hao. Multi-Label Classification of Chinese Books with LSTM Model. Data Analysis and Knowledge Discovery, 2017, 1(7): 52-60.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0484      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I7/52
  LSTM模型的记忆单元的基本结构示意图
  本文系统的整体架构示意图
MARC字段 含义
001 MARC标识号
200 题名
330 摘要
606 主题词
690 中图分类号
  MARC格式特定字段及含义
类标号 书目数
A 8 486
C 28 514
F 146 228
N 6 935
X 16 463
总计 206 626
  单标签图书分类实验的数据分布
  基于不同字段选择的模型在训练过程中在验证集上的准确率变化
类标号 书目数 类标号 书目数
A 8 101 A、X 5
C 25 595 C、F 1 217
F 133 401 C、N 69
N 6 461 C、X 50
X 15 642 F、N 49
A、C 38 F、X 684
A、F 111 N、X 21
A、N 4 C、F、X 3
总计 191 451
  多标签图书分类实验的数据分布
  各二元分类器在训练集上的损失变化图
  各二元分类器在训练集上的准确率变化图
类标号 精度 召回率 F1值
A 91.23% 94.32% 92.75%
C 85.47% 93.61% 89.35%
F 95.85% 98.56% 97.19%
N 83.43% 90.17% 86.67%
X 88.88% 96.13% 92.36%
  各类别的二元分类器在测试集上的测试情况表
  单标签实验与多标签实验在测试集各类别上的指标数据对比
多标
签项
实际
存在数
预测情况
包含至少一
个实际类别
包含全部
实际类别
恰好等于
实际类别
A、C 8 7 4 4
A、F 23 23 16 16
A、N 1 1 0 0
A、X 1 1 1 1
C、F 244 242 140 140
C、N 14 14 7 7
C、X 10 10 5 3
F、N 10 10 2 2
F、X 137 136 100 100
N、X 5 5 2 2
C、F、X 1 1 1 1
总计 454 450 278 276
  测试集中多标签条目的实际预测情况统计表
[1] 罗雪英. 也谈数字图书馆的建设目标[J]. 现代情报, 2002, 22(12): 131-132.
doi: 10.3969/j.issn.1008-0821.2002.12.072
[1] (Luo Xueying.Talking About the Construction Target of Digital Library[J]. Modern Information, 2002, 22(12): 131-132.)
doi: 10.3969/j.issn.1008-0821.2002.12.072
[2] Luhn H P.Auto-encoding of Documents for Information Retrieval Systems[M]. IBM Research Center, 1958.
[3] 肖明. WWW科技信息资源自动标引的理论与实践研究[D]. 北京: 中国科学院文献情报中心, 2001.
[3] (Xiao Ming.Study on the Theory and Practice of Automatic Indexing of WWW Science and Technology Information Resources[D]. Beijing: National Science Library, Chinese Academy of Sciences, 2001.)
[4] Lewis D D, Ringuette M.A Comparison of Two Learning Algorithms for Text Categorization[C]//Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas. Information Science Research Institute, University of Nevada, 1994, 33: 81-93.
[5] Yang Y, Chute C G.An Example-based Mapping Method for Text Categorization and Retrieval[J]. ACM Transactions on Information Systems (TOIS), 1994, 12(3): 252-277.
doi: 10.1145/183422.183424
[6] 陈立孚, 周宁, 李丹. 基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005(10): 23-27.
doi: 10.3969/j.issn.1003-3513.2005.10.006
[6] (Chen Lifu, Zhou Ning, Li Dan.Study on Machine Learning Based Automatic Text Categorization Model[J]. New Technology of Library and Information Service,2005(10): 23-27.)
doi: 10.3969/j.issn.1003-3513.2005.10.006
[7] Weigend A S, Wiener E D, Pedersen J O.Exploiting Hierarchy in Text Categorization[J]. Information Retrieval, 1999, 1(3): 193-216.
doi: 10.1023/A:1009983522080
[8] 苏金树, 张博锋, 徐昕. 基于机器学习的文本分类技术研究进展[J]. 软件学报, 2006, 17(9): 1848-1859.
[8] (Su Jinshu, Zhang Bofeng, Xu Xin.Advances in Machine Learning Based Text Categorization[J]. Journal of Software, 2006, 17(9): 1848-1859.)
[9] 吕小勇, 石洪波. 基于频繁项集的多标签文本分类算法[J]. 计算机工程, 2010, 36(15): 83-85.
[9] (Lv Xiaoyong, Shi Hongbo.Multi-label Text Classification Algorithm Based on Frequent Item Sets[J]. Computer Engineering, 2010, 36(15): 83-85.)
[10] Joachims T.Text Categorization with Support Vector Machines: Learning with Many Relevant Features[A]// Machine Learning: ECML-98[M]. Springer, Berlin, Heidelberg, 1998: 137-142.
[11] Crammer K, Singer Y.A New Family of Online Algorithms for Category Ranking[C]// Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland. New York: ACM, 2002: 151-158.
[12] Ueda N, Saito K.Parametric Mixture Models for Multi- Labeled Text[A]//Advances in Neural Information Processing Systems[M]. MIT Press, 2003: 737-744.
[13] Zhang M, Zhou Z.Multi-Label Learning by Instance Differentiation[C]//Proceedings of the 22nd Conference on Artificial Intelligence. 2007: 669-674.
[14] Liu Y, Jin R, Yang L.Semi-supervised Multi-label Learning by Constrained Non-negative Matrix Factorization[C]// Proceedings of the 21st Conference on Artificial Intelligence, Boston, Massachusetts, USA. 2006, 6: 421-426.
[15] Hochreiter S, Schmidhuber J.Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
doi: 10.1162/neco.1997.9.8.1735
[16] Gers F A, Schmidhuber J, Cummins F.Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471.
doi: 10.1162/089976600300015015
[17] Graves A.Supervised Sequence Labelling with Recurrent Neural Networks [D]. München: Technische Universität München, 2008.
[18] Zaremba W, Sutskever I, Vinyals O.Recurrent Neural Network Regularization [OL]. arXiv Preprint, arXiv: 1409.2329.
[19] Hochreiter S.Recurrent Neural Net Learning and Vanishing Gradient[J]. International Journal of Uncertainity, Fuzziness and Knowledge-Based Systems, 1998, 6(2): 107-116.
doi: 10.1142/S0218488598000094
[20] Hochreiter S, Bengio Y, Frasconi P, et al.Gradient Flow in Recurrent Nets: The Difficulty of Learning Long-term Dependencies[A]// A Field Guide to Dynamical Recurrent Neural Networks[M]. Wiley-IEEE Press, 2001.
[21] 邱锡鹏. 神经网络与深度学习[EB/OL]. [2017-04-21].
[21] (Qiu Xipeng.Neural Network and Deep Learning [EB/OL]. [2017-04-21].)
[22] Hinton G E.Learning Distributed Representations of Concepts[C]//Proceedings of the 8th Annual Conference of the Cognitive Science Society. 1986.
[23] Chung J, Cho K, Bengio Y.A Character-Level Decoder Without Explicit Segmentation for Neural Machine Translation[OL]. arXiv Preprint, arXiv:1603.06147.
[24] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[24] (Zhou Zhihua.Machine Learning[M]. Beijing: Tsinghua University Press, 2016.)
[25] Kingma D, Ba J.Adam: A Method for Stochastic Optimization[OL]. arXiv Preprint, arXiv:1412.6980.
[26] HUIWEN Software [EB/OL]. [2017-02-13].
[27] Python Software Foundation [EB/OL]. [2017-02-12].
[28] 李思男, 李宁, 李战怀. 多标签数据挖掘技术: 研究综述[J]. 计算机科学, 2013, 40(4): 14-21.
doi: 10.3969/j.issn.1002-137X.2013.04.003
[28] (Li Sinan, Li Ning, Li Zhanhuai.Multi-label Data Mining: A Survey[J]. Computer Science, 2013, 40(4): 14-21.)
doi: 10.3969/j.issn.1002-137X.2013.04.003
[29] 王昊, 严明, 苏新宁. 基于机器学习的中文书目自动分类研究[J]. 中国图书馆学报, 2010,36(6): 28-39.
[29] (Wang Hao, Yan Ming, Su Xinning.Research on Automatic Classification for Chinese Bibliography Based on Machine Learning[J]. Journal of the Library Science in China, 2010, 36(6): 28-39.)
[1] 王鑫芸,王昊,邓三鸿,张宝隆. 面向期刊选择的学术论文内容分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 96-109.
[2] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
[3] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[4] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[5] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[6] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[7] 刘彤,倪维健,孙宇健,曾庆田. 基于深度迁移学习的业务流程实例剩余执行时间预测方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 134-142.
[8] 余传明,李浩男,王曼怡,黄婷婷,安璐. 基于深度学习的知识表示研究:网络视角*[J]. 数据分析与知识发现, 2020, 4(1): 63-75.
[9] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[10] 裴晶晶,乐小虬. 篇章级并列关系文本块识别方法研究[J]. 数据分析与知识发现, 2019, 3(5): 51-56.
[11] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[12] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[13] 付常雷,钱力,张华平,赵华茗,谢靖. 基于深度学习的创新主题智能挖掘算法研究*[J]. 数据分析与知识发现, 2019, 3(1): 46-54.
[14] 余本功,张培行,许庆堂. 基于F-BiGRU情感分析的产品选择方法*[J]. 数据分析与知识发现, 2018, 2(9): 22-30.
[15] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn