Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (7): 52-60     https://doi.org/10.11925/infotech.2096-3467.2017.0484
  首届"数据分析与知识发现"学术研讨会专辑(I) 本期目录 | 过刊浏览 | 高级检索 |
基于LSTM模型的中文图书多标签分类研究*
邓三鸿, 傅余洋子(), 王昊
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室(南京大学) 南京 210023
Multi-Label Classification of Chinese Books with LSTM Model
Deng Sanhong, Fu Yuyangzi(), Wang Hao
School of Information Management, Nanjing University, Nanjing 210023
Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210023, China
全文: PDF (1324 KB)   HTML ( 6
输出: BibTeX | EndNote (RIS)      
摘要 

目的】利用LSTM模型和字嵌入的方法构建分类系统, 提出一种中文图书分类中多标签分类的解决方案。【方法】引入深度学习算法, 利用字嵌入方法和LSTM模型构建分类系统, 对题名、主题词等字段组成的字符串进行学习以训练模型, 并采用构建多个二元分类器的方法解决多标签分类问题, 选择3所高校5个类别的书目数据进行实验。【结果】从整体准确率、各类别精度、召回率、F1值多个指标进行分析, 本文提出的模型均有良好表现, 有较强的实际应用价值。【局限】数据仅涉及中图分类法5个类别, 考虑的分类粒度较粗等。【结论】基于LSTM模型的中文图书分类系统具有预处理简单、增量学习、可迁移性高等优点, 具备可行性和实用性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
邓三鸿
傅余洋子
王昊
关键词 LSTM模型深度学习字嵌入图书自动分类多标签分类    
Abstract

[Objective] This paper proposes a new method to automatically cataloguing Chinese books based on LSTM model, aiming to solve the issues facing single or multi-label classification. [Methods] First, we introduced deep learning algorithms to construct a new classification system with character embedding technique. Then, we trained the LSTM model with strings consisting of titles and keywords. Finally, we constructed multiple binary classifiers, which were examined with bibliographic data from three universities. [Results] The proposed model performed well and had practical value. [Limitations] We only analyzed five categories of Chinese bibliographies, and the granularity of classification was coarse. [Conclusions] The proposed Chinese book classification system based on LSTM model could preprocess data and learn incrementally, which could be transferred to other fields.

Key wordsLSTM Model    Deep Learning    Character Embedding    Book Automatic Classification    Multi-label Classification
收稿日期: 2017-05-27      出版日期: 2017-07-26
ZTFLH:  TP391  
基金资助:*本文系国家自然科学基金项目“面向学术资源的TSD与TDC测度及分析研究”(项目编号: 71503121)和中央高校基本科研业务费重点项目“我国图书情报学科知识结构及演化动态研究”(项目编号: 20620140645)的研究成果之一
引用本文:   
邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
Deng Sanhong,Fu Yuyangzi,Wang Hao. Multi-Label Classification of Chinese Books with LSTM Model. Data Analysis and Knowledge Discovery, 2017, 1(7): 52-60.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0484      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I7/52
  LSTM模型的记忆单元的基本结构示意图
  本文系统的整体架构示意图
MARC字段 含义
001 MARC标识号
200 题名
330 摘要
606 主题词
690 中图分类号
  MARC格式特定字段及含义
类标号 书目数
A 8 486
C 28 514
F 146 228
N 6 935
X 16 463
总计 206 626
  单标签图书分类实验的数据分布
  基于不同字段选择的模型在训练过程中在验证集上的准确率变化
类标号 书目数 类标号 书目数
A 8 101 A、X 5
C 25 595 C、F 1 217
F 133 401 C、N 69
N 6 461 C、X 50
X 15 642 F、N 49
A、C 38 F、X 684
A、F 111 N、X 21
A、N 4 C、F、X 3
总计 191 451
  多标签图书分类实验的数据分布
  各二元分类器在训练集上的损失变化图
  各二元分类器在训练集上的准确率变化图
类标号 精度 召回率 F1值
A 91.23% 94.32% 92.75%
C 85.47% 93.61% 89.35%
F 95.85% 98.56% 97.19%
N 83.43% 90.17% 86.67%
X 88.88% 96.13% 92.36%
  各类别的二元分类器在测试集上的测试情况表
  单标签实验与多标签实验在测试集各类别上的指标数据对比
多标
签项
实际
存在数
预测情况
包含至少一
个实际类别
包含全部
实际类别
恰好等于
实际类别
A、C 8 7 4 4
A、F 23 23 16 16
A、N 1 1 0 0
A、X 1 1 1 1
C、F 244 242 140 140
C、N 14 14 7 7
C、X 10 10 5 3
F、N 10 10 2 2
F、X 137 136 100 100
N、X 5 5 2 2
C、F、X 1 1 1 1
总计 454 450 278 276
  测试集中多标签条目的实际预测情况统计表
[1] 罗雪英. 也谈数字图书馆的建设目标[J]. 现代情报, 2002, 22(12): 131-132.
doi: 10.3969/j.issn.1008-0821.2002.12.072
[1] (Luo Xueying.Talking About the Construction Target of Digital Library[J]. Modern Information, 2002, 22(12): 131-132.)
doi: 10.3969/j.issn.1008-0821.2002.12.072
[2] Luhn H P.Auto-encoding of Documents for Information Retrieval Systems[M]. IBM Research Center, 1958.
[3] 肖明. WWW科技信息资源自动标引的理论与实践研究[D]. 北京: 中国科学院文献情报中心, 2001.
[3] (Xiao Ming.Study on the Theory and Practice of Automatic Indexing of WWW Science and Technology Information Resources[D]. Beijing: National Science Library, Chinese Academy of Sciences, 2001.)
[4] Lewis D D, Ringuette M.A Comparison of Two Learning Algorithms for Text Categorization[C]//Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas. Information Science Research Institute, University of Nevada, 1994, 33: 81-93.
[5] Yang Y, Chute C G.An Example-based Mapping Method for Text Categorization and Retrieval[J]. ACM Transactions on Information Systems (TOIS), 1994, 12(3): 252-277.
doi: 10.1145/183422.183424
[6] 陈立孚, 周宁, 李丹. 基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005(10): 23-27.
doi: 10.3969/j.issn.1003-3513.2005.10.006
[6] (Chen Lifu, Zhou Ning, Li Dan.Study on Machine Learning Based Automatic Text Categorization Model[J]. New Technology of Library and Information Service,2005(10): 23-27.)
doi: 10.3969/j.issn.1003-3513.2005.10.006
[7] Weigend A S, Wiener E D, Pedersen J O.Exploiting Hierarchy in Text Categorization[J]. Information Retrieval, 1999, 1(3): 193-216.
doi: 10.1023/A:1009983522080
[8] 苏金树, 张博锋, 徐昕. 基于机器学习的文本分类技术研究进展[J]. 软件学报, 2006, 17(9): 1848-1859.
[8] (Su Jinshu, Zhang Bofeng, Xu Xin.Advances in Machine Learning Based Text Categorization[J]. Journal of Software, 2006, 17(9): 1848-1859.)
[9] 吕小勇, 石洪波. 基于频繁项集的多标签文本分类算法[J]. 计算机工程, 2010, 36(15): 83-85.
[9] (Lv Xiaoyong, Shi Hongbo.Multi-label Text Classification Algorithm Based on Frequent Item Sets[J]. Computer Engineering, 2010, 36(15): 83-85.)
[10] Joachims T.Text Categorization with Support Vector Machines: Learning with Many Relevant Features[A]// Machine Learning: ECML-98[M]. Springer, Berlin, Heidelberg, 1998: 137-142.
[11] Crammer K, Singer Y.A New Family of Online Algorithms for Category Ranking[C]// Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland. New York: ACM, 2002: 151-158.
[12] Ueda N, Saito K.Parametric Mixture Models for Multi- Labeled Text[A]//Advances in Neural Information Processing Systems[M]. MIT Press, 2003: 737-744.
[13] Zhang M, Zhou Z.Multi-Label Learning by Instance Differentiation[C]//Proceedings of the 22nd Conference on Artificial Intelligence. 2007: 669-674.
[14] Liu Y, Jin R, Yang L.Semi-supervised Multi-label Learning by Constrained Non-negative Matrix Factorization[C]// Proceedings of the 21st Conference on Artificial Intelligence, Boston, Massachusetts, USA. 2006, 6: 421-426.
[15] Hochreiter S, Schmidhuber J.Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
doi: 10.1162/neco.1997.9.8.1735
[16] Gers F A, Schmidhuber J, Cummins F.Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471.
doi: 10.1162/089976600300015015
[17] Graves A.Supervised Sequence Labelling with Recurrent Neural Networks [D]. München: Technische Universität München, 2008.
[18] Zaremba W, Sutskever I, Vinyals O.Recurrent Neural Network Regularization [OL]. arXiv Preprint, arXiv: 1409.2329.
[19] Hochreiter S.Recurrent Neural Net Learning and Vanishing Gradient[J]. International Journal of Uncertainity, Fuzziness and Knowledge-Based Systems, 1998, 6(2): 107-116.
doi: 10.1142/S0218488598000094
[20] Hochreiter S, Bengio Y, Frasconi P, et al.Gradient Flow in Recurrent Nets: The Difficulty of Learning Long-term Dependencies[A]// A Field Guide to Dynamical Recurrent Neural Networks[M]. Wiley-IEEE Press, 2001.
[21] 邱锡鹏. 神经网络与深度学习[EB/OL]. [2017-04-21].
[21] (Qiu Xipeng.Neural Network and Deep Learning [EB/OL]. [2017-04-21].)
[22] Hinton G E.Learning Distributed Representations of Concepts[C]//Proceedings of the 8th Annual Conference of the Cognitive Science Society. 1986.
[23] Chung J, Cho K, Bengio Y.A Character-Level Decoder Without Explicit Segmentation for Neural Machine Translation[OL]. arXiv Preprint, arXiv:1603.06147.
[24] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
[24] (Zhou Zhihua.Machine Learning[M]. Beijing: Tsinghua University Press, 2016.)
[25] Kingma D, Ba J.Adam: A Method for Stochastic Optimization[OL]. arXiv Preprint, arXiv:1412.6980.
[26] HUIWEN Software [EB/OL]. [2017-02-13].
[27] Python Software Foundation [EB/OL]. [2017-02-12].
[28] 李思男, 李宁, 李战怀. 多标签数据挖掘技术: 研究综述[J]. 计算机科学, 2013, 40(4): 14-21.
doi: 10.3969/j.issn.1002-137X.2013.04.003
[28] (Li Sinan, Li Ning, Li Zhanhuai.Multi-label Data Mining: A Survey[J]. Computer Science, 2013, 40(4): 14-21.)
doi: 10.3969/j.issn.1002-137X.2013.04.003
[29] 王昊, 严明, 苏新宁. 基于机器学习的中文书目自动分类研究[J]. 中国图书馆学报, 2010,36(6): 28-39.
[29] (Wang Hao, Yan Ming, Su Xinning.Research on Automatic Classification for Chinese Bibliography Based on Machine Learning[J]. Journal of the Library Science in China, 2010, 36(6): 28-39.)
[1] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[2] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[3] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[4] 赵丹宁,牟冬梅,白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[5] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[6] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[7] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[8] 马莹雪,甘明鑫,肖克峻. 融合标签和内容信息的矩阵分解推荐方法*[J]. 数据分析与知识发现, 2021, 5(5): 71-82.
[9] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[10] 常城扬,王晓东,张胜磊. 基于深度学习方法对特定群体推特的动态政治情感极性分析*[J]. 数据分析与知识发现, 2021, 5(3): 121-131.
[11] 冯勇,刘洋,徐红艳,王嵘冰,张永刚. 融合近邻评论的GRU商品推荐模型*[J]. 数据分析与知识发现, 2021, 5(3): 78-87.
[12] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[13] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[14] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[15] 李丹阳, 甘明鑫. 基于多源信息融合的音乐推荐方法 *[J]. 数据分析与知识发现, 2021, 5(2): 94-105.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn