Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (7): 87-95     https://doi.org/10.11925/infotech.2096-3467.2020.0137
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
不均衡数据集下基于CNN的中图分类标引方法 *
翁梦娟,姚长青,韩红旗(),王莉军,冉亚鑫
富媒体数字出版内容组织与知识服务重点实验室 北京 100038;富媒体数字出版内容组织与知识服务重点实验室 北京 100038
Classification and Indexing Method with CNN for Imbalanced Datasets
Weng Mengjuan,Yao Changqing,Han Hongqi(),Wang Lijun,Ran Yaxin
Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content, Beijing 100038, China;Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing Content, Beijing 100038, China
全文: PDF (922 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

目的】提高类间分布不均匀数据下中图分类标引的精度。【方法】提出一种使用卷积神经网络(CNN)作为融合分类器的分类方法,相比于其他Stacking融合方法,本方法将各基模型的分类标签概率分布信息堆叠后作为CNN输入,无须人工设置基模型权重。【结果】实验以中图分类法G4下三级类目为例,结果显示,本方法对不均衡中图类目的平均标引准确率达60%,相比于基线模型,本方法的分类精度有19%的绝对提升。【局限】 在方法设计上依赖卷积神经网络中卷积核的设计,只能通过实验确定效果最佳的网络结构;融合阶段训练分类器的复杂度会随着类目数量和基模型数量的增加而增加。【结论】本方法可有效提高不均衡数据集下的标引精度,可与层级分类策略结合使用,实现中图全类目的自动化分类标引。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
翁梦娟
姚长青
韩红旗
王莉军
冉亚鑫
关键词 分类标引数据不均衡CNNStacking    
Abstract

[Objective] This paper proposes a new classficiation method based on Convolutional Neural Network(CNN), aiming to improve the indexing accuracy of the skewed datasets.[Methods] Compared with stacking fusion methods, we stacked each base model’s distribution information of the classification label probabilities as CNN inputs. Our method does not need to manually set the weight for each base model. We examined the proposed model with the third-level categories of the Chinese Library Classification (CLC).[Results] The accuracy of our method was upto 60%, which was 19% higher than the performance of baselinemodels.[Limitations] Our method needs to design convolution kernels, which can only be determined with experiments. Meanwhile, the complexity of classifier training at the fusion stage depends on the number of categories and base models.[Conclusions] The porposed method can effectively improve the indexing accuracy of imbalanced datasets. With the help of hierarchical classification strategy, it can automatically finish classification and indexing tasks of CLC.

Key wordsClassification Indexing    Imbalanced Data    CNN    Stacking
收稿日期: 2020-02-26      出版日期: 2020-07-25
ZTFLH:  TP391 G35  
基金资助:*本文系中国工程科技知识中心建设项目“知识组织体系建设”(CKCEST-2020-1-19);中国科学技术信息研究所重点工作项目“多模态知识图谱构建关键技术研究”的研究成果之一(ZD2020-09)
通讯作者: 韩红旗     E-mail: bithhq@163.com
引用本文:   
翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫. 不均衡数据集下基于CNN的中图分类标引方法 *[J]. 数据分析与知识发现, 2020, 4(7): 87-95.
Weng Mengjuan,Yao Changqing,Han Hongqi,Wang Lijun,Ran Yaxin. Classification and Indexing Method with CNN for Imbalanced Datasets. Data Analysis and Knowledge Discovery, 2020, 4(7): 87-95.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0137      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I7/87
Fig.1  单个基分类模型输出的分类标签和分类标签概率分布图解
Fig.2  CNN作为融合分类模型的Stacking异构集成方法
序号 类号 类名 样本数 IR
1 G48 学校建筑和设备的管理 257 16
2 G77 社会教育 282 15
3 G76 特殊教育 298 14
4 G65 师范教育 575 7
5 G46 教育行政 576 7
6 G43 电化教育 624 7
7 G72 成人教育、业余教育 853 5
8 G40 教育学 1 001 4
9 G42 教学理论 1 001 4
10 G47 学校管理 1 001 4
11 G51 世界教育事业 1 001 4
12 G75 少数民族教育 1 001 4
13 G41 思想政治教育、德育 1 002 4
14 G52 中国教育事业 1 020 4
15 G45 教师与学生 1 052 4
16 G44 教育心理学 1 088 4
17 G61 学前教育、幼儿教育 1 089 4
18 G71 职业技术教育 1 480 3
19 G62 初等教育 1 564 3
20 G63 中等教育 2 649 2
21 G64 高等教育 4 118 1
总计 23 532
Table 1  以G64为大类的不均衡程度对比
分类号 NB LR KNN SVM 基线模型 融合模型
G64 0.69 0.83 0.61 0.74 0.90 0.68
G42 0.29 0.28 0.24 0.42 0.09 0.45
G63 0.54 0.74 0.55 0.71 0.82 0.70
G44 0.83 0.74 0.77 0.73 0.69 0.78
G61 0.70 0.81 0.72 0.77 0.82 0.83
G71 0.66 0.68 0.51 0.74 0.68 0.80
G41 0.57 0.53 0.64 0.58 0.52 0.62
G51 0.46 0.37 0.33 0.36 0.31 0.47
G72 0.66 0.82 0.67 0.79 0.71 0.79
G75 0.61 0.62 0.54 0.66 0.58 0.75
G45 0.49 0.56 0.48 0.54 0.47 0.59
G48 0.38 0.42 0.58 0.58 0.00 0.65
G46 0.24 0.14 0.48 0.24 0.00 0.27
G43 0.58 0.45 0.42 0.39 0.10 0.49
G62 0.52 0.75 0.52 0.70 0.69 0.74
G76 0.47 0.27 0.57 0.40 0.00 0.72
G40 0.46 0.45 0.43 0.41 0.39 0.48
G52 0.65 0.53 0.55 0.53 0.56 0.58
G47 0.25 0.41 0.34 0.48 0.17 0.46
G65 0.33 0.22 0.21 0.26 0.07 0.33
G77 0.25 0.43 0.39 0.32 0.00 0.39
平均 0.51 0.53 0.50 0.54 0.41 0.60
Table 2  各模型的分类精度
模型 KNN LR MNB SVM 融合模型
G47 0.54 0.71 0.61 0.64 0.64
G75 0.69 0.78 0.69 0.74 0.81
G45 0.58 0.64 0.62 0.60 0.68
G41 0.70 0.68 0.74 0.67 0.70
G40 0.49 0.49 0.53 0.52 0.53
G44 0.89 0.89 0.86 0.84 0.89
G52 0.65 0.67 0.63 0.73 0.70
G61 0.85 0.88 0.84 0.84 0.91
G42 0.59 0.73 0.63 0.71 0.75
G51 0.54 0.64 0.65 0.61 0.66
平均 0.65 0.71 0.68 0.69 0.73
Tabel 3  基分类模型在均衡数据集上的分类精度
Fig.3  融合分类模型的性能随卷积核长度增加的变化趋势
Fig.4  融合分类模型性能随卷积核宽度增加的变化趋势
[1] 何琳, 刘竞, 侯汉清. 基于《中图法》的多层自动分类影响因素分析[J]. 中国图书馆学报, 2009,35(6):49-55.
[1] ( He Lin, Liu Jing, Hou Hanqing. Analysis of Influential Factors of Multi-layered Automatic Classification Based on Chinese Library Classification[J]. Journal of Library Science in China, 2009,35(6):49-55.)
[2] 何琳, 刘竞, 侯汉清. 基于标引经验和机器学习相结合的多层自动分类[J]. 情报学报, 2006,26(4):725-729.
[2] ( He Lin, Liu Jing, Hou Hanqing. Multi-level Automatic Classification Based on the Combination of Indexing Experience and Machine Learning[J]. Journal of the China Society for Scientific and Technical Information, 2006,26(4):725-729.)
[3] 李艳霞, 柴毅, 胡友强, 等. 不平衡数据分类方法综述[J]. 控制与决策, 2019,34(4):673-688.
[3] ( Li Yanxia, Chai Yi, Hu Youqiang, et al. Review of Imbalanced Data Classification Methods[J]. Control and Decision, 2019,34(4):673-688.)
[4] Galar M, Fernandez A, Barrenechea E, et al. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches[J]. IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications and Reviews), 2012,42(4):463-484.
[5] Somasundaram A, Reddy S. Modelling a Stable Classifier for Handling Large Scale Data with Noise and Imbalance[C] //Proceedings of the 2017 International Conference on Computational Intelligence in Data Science. 2017: 1-6.
[6] Wei Y Y, Li T S, Ge Z H. Combining Distributed Classifies by Stacking[C] //Proceedings of the 3rd International Conference on Genetic and Evolutionary Computing. 2009: 418-421.
[7] Yan J, Han S. Classifying Imbalanced Data Sets by a Novel RE-sample and Cost-sensitive Stacked Generalization Method[J]. Mathematical Problems in Engineering, DOI: 10.1155/2018/5036710.
pmid: 29578548
[8] 郭利敏, 刘炜, 吴佩娟, 等. 机器学习在图书馆应用初探:以 TensorFlow为例[J]. 大学图书馆学报, 2017,35(6):31-40.
[8] ( Guo Limin, Liu Wei, Wu Peijuan, et al. Machine Learning and Its Application in Library:Take TensorFlow as an Example[J]. Journal of Academic Libraries, 2017,35(6):31-40.)
[9] 郭利敏. 基于卷积神经网络的文献自动分类研究[J]. 图书与情报, 2017(6):96-103.
[9] ( Guo Limin. Study of Automatic Classification of Literature Based on Convolution Neural Network[J]. Library & Information, 2017(6):96-103.)
[10] 张玉芳. 基于知识库的多层次文本自动分类研究[D]. 南京:南京理工大学, 2014.
[10] ( Zhang Yufang. The Research of Hierarchical Automatic Text Classification Based on the Knowledge Database[D]. Nanjing:Nanjing University of Science and Technology, 2014.)
[11] Wolpert D. Stacked Generalization[J]. Neural Networks, 1992,5(2):241-260.
[12] Ting K M, Witten I H. Issues in Stacked Generalization[J]. Journal of Artificial Intelligence Research, 1999,10(1):271-289.
[13] Xiang Y, Xie Y P. Imbalanced Data Classification Method Based on Ensemble Learning[A]//Communications, Signal Processing, and Systems[M]. Berlin, German:Springer, 2018: 18-24.
[14] Tsoumakas G, Vlahavas I. Distributed Data Mining of Large Classifier Ensembles[C] // Proceedings of the 2nd Hellenic Conference on AI. 2002: 249-256.
[15] Yoon K. Convolutional Neural Networks for Sentence Classification[OL]. arXiv Preprint, arXiv: 1408. 5882.
[16] 涂曼姝, 潘接林. 关于深度神经网络在交叉领域的情感分类任务中的可迁移性探究[J]. 情报工程, 2018,4(6):13-24.
[16] ( Tu Manshu, Pan Jielin. How Features Transferred in Very Deep Neural Networks on Cross Domain Sentiment Classification[J]. Technology Intelligence Engineering, 2018,4(6):13-24.)
[17] 翟文洁, 闫琰, 张博文, 等. 基于混合深度信念网络的多类文本表示与分类方法[J]. 情报工程, 2016,2(5):30-40.
[17] ( Zhai Wenjie, Yan Yan, Zhang Bowen, et al. A Model for Text Representation and Classification Based on Hybrid Deep Belief Networks[J]. Technology Intelligence Engineering, 2016,2(5):30-40.)
[18] Ran Y X, Han H Q, Zhang Y L, et al. Hierarchical Classification Algorithm Based on FastText[C] //Proceedings of the 7th International Conference on Computational and Information Sciences. 2019: 909-916.
[1] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[2] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[3] 代建华, 邓育彬. 基于情感膨胀门控CNN的情感-原因对提取*[J]. 数据分析与知识发现, 2020, 4(8): 98-106.
[4] 马娜,张智雄,吴朋民. 基于特征融合的术语型引用对象自动识别方法研究*[J]. 数据分析与知识发现, 2020, 4(1): 89-98.
[5] 李慧,柴亚青. 基于卷积神经网络的细粒度情感分析方法*[J]. 数据分析与知识发现, 2019, 3(1): 95-103.
[6] 蒋翠清, 宋凯伦, 丁勇, 刘尧. 基于用户生成内容的潜在客户识别方法*[J]. 数据分析与知识发现, 2018, 2(3): 1-8.
[7] 冯国明, 张晓冬, 刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[8] 赵杨, 李齐齐, 陈雨涵, 曹文航. 基于在线评论情感分析的海淘APP用户满意度研究*[J]. 数据分析与知识发现, 2018, 2(11): 19-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn