Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (5): 59-69     https://doi.org/10.11925/infotech.2096-3467.2017.1119
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于改进的果蝇优化算法的文本特征选择优化模型
温廷新1, 李洋子1(), 孙静霜2
1辽宁工程技术大学系统工程研究所 葫芦岛市 125105
2辽宁工程技术大学工商管理学院 葫芦岛市 125105
Extracting Text Features with Improved Fruit Fly Optimization Algorithm
Wen Tingxin1, Li Yangzi1(), Sun Jingshuang2
1Institute of Systems Engineering, Liaoning Technical University, Huludao 125105, China
2 College of Business Administration, Liaoning Technical University, Huludao 125105, China
全文: PDF (1207 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 降低文本特征向量空间的维度, 提高文本分类准确率。【方法】 提出一种基于改进果蝇优化算法的文本特征选择优化新模型——IFOATFSO模型, 该模型引入分类准确率方差, 监控模型收敛程度; 引入模拟退火机制及遗传算法的交叉算子、轮盘赌选择法, 加深全局搜索, 提高种群多样性。【结果】 在CHI方法基础上应用IFOATFSO模型优化特征选择, 大幅度地降低特征维度, 提高文本分类准确率, 最大提高幅度能够达到10.5%。【局限】IFOATFSO模型优化英文文本特征效果略逊于优化中文文本特征效果。【结论】 IFOATFSO模型优化特征选择一定程度上可以改进文本分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
温廷新
李洋子
孙静霜
关键词 文本特征选择果蝇优化算法分类准确率方差    
Abstract

[Objective] This paper tries to reduce the dimension of text feature vector space and then improves the accuracy of text classification. [Methods] We proposed a text feature selection model IFOATFSO based on the improved fruit fly optimization algorithm. It introduced the classification accuracy variance to monitor the convergence degree of the model. We also used the crossover operator, roulette wheel selection method based on simulated annealing mechanism and genetic algorithm to deepen global search and improve population diversity. [Results] The IFOATFSO model, which optimized the feature selection based on CHI method, not only reduced the feature dimension, but also improved the accuracy of text classification by up to 10.5%. [Limitations] The performance of IFOATFSO model for extracting English text features needs to be improved. [Conclusions] The IFOATFSO model improves the text classification.

Key wordsText Feature Selection    Fruit Fly Optimization Algorithm    Classification Accuracy Variance
收稿日期: 2017-11-08      出版日期: 2018-06-20
ZTFLH:  TP391  
引用本文:   
温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
Wen Tingxin,Li Yangzi,Sun Jingshuang. Extracting Text Features with Improved Fruit Fly Optimization Algorithm. Data Analysis and Knowledge Discovery, 2018, 2(5): 59-69.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1119      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I5/59
  IFOATFSO模型—初始寻优流程
  IFOATFSO模型—迭代寻优流程
  英文语料库Naive Bayes分类器各维度100次迭代分类准确率
  英文语料库SVM分类器各维度100次迭代分类准确率
  中文语料库Naive Bayes分类器各维度100次迭代分类准确率
  中文语料库SVM分类器各维度100次迭代分类准确率
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.716
0.802
0.812
0.820
0.820
0.831
0.741
0.815
0.818
0.841
0.834
0.838
  Naive Bayes分类器分类准确率比较
  Naive Bayes分类器分类准确率比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.759
0.852
0.845
0.850
0.846
0.817
0.783
0.859
0.889
0.880
0.858
0.867
  SVM分类器分类准确率比较
  SVM分类器分类准确率比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
160
291
417
577
691
870
  Naive Bayes分类器特征数目比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
151
307
452
565
683
844
  SVM分类器特征数目比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.540
0.658
0.689
0.712
0.705
0.713
0.578
0.690
0.712
0.717
0.721
0.736
  Naive Bayes分类器分类准确率比较
  Naive Bayes分类器分类准确率比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.628
0.604
0.625
0.623
0.673
0.671
0.638
0.709
0.652
0.695
0.768
0.773
  SVM分类器分类准确率比较
  SVM分类器分类准确率比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
148
307
452
579
732
907
  Naive Bayes分类器特征数目比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
155
293
448
614
736
906
  SVM分类器特征数目比较
  卡方检验
[1] 林艳峰. 中文文本分类特征选择方法的研究与实现[D]. 西安: 西安电子科技大学, 2014.
[1] (Lin Yanfeng.Research and Implementation of Feature Selection in Chinese Text Classification [D]. Xi’an : Xidian University, 2014.)
[2] 范雪莉, 冯海泓, 原猛. 基于互信息的主成分分析特征选择算法[J]. 控制与决策, 2013, 28(6): 915-919.
[2] (Fan Xueli, Feng Haihong, Yuan Meng.PCA Based on Mutual Information for Feature Selection[J]. Control and Decision, 2013, 28(6): 915-919.)
[3] 路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014(4): 48-57.
[3] (Lu Yonghe, Liang Minghui.Improvement of Text Feature Extraction with Genetic Algorithm[J]. New Technology of Library and Information Service, 2014(4): 48-57.)
[4] 张彪. 文本分类中特征选择算法的分析与研究[D]. 合肥: 中国科学技术大学, 2010.
[4] (Zhang Biao.Analysis and Research on Feature Selection Algorithm for Text Classification [D]. Hefei: University of Science and Technology of China, 2010.)
[5] 邱云飞, 王威, 刘大有, 等. 基于方差的CHI特征选择方法[J]. 计算机应用研究, 2012, 29(4): 1304-1306.
[5] (Qiu Yunfei, Wang Wei, Liu Dayou, et al.CHI Feature Selection Method Based on Variance[J]. Application Research of Computers, 2012, 29(4): 1304-1306.)
[6] 石慧, 贾代平, 苗培. 基于词频信息的改进信息增益文本特征选择算法[J]. 计算机应用, 2014, 34(11): 3279-3282.
doi: 10.11772/j.issn.1001-9081.2014.11.3279
[6] (Shi Hui, Jia Daiping, Miao Pei.Improved Information Gain Text Feature Selection Algorithm Based on Word Frequency Information[J]. Journal of Computer Applications, 2014, 34(11): 3279-3282.)
doi: 10.11772/j.issn.1001-9081.2014.11.3279
[7] 刘松, 张德贤. 基于权重差异和类别关联的互信息改进研究[J]. 计算机应用研究, 2014, 31(7): 1998-2000.
doi: 10.3969/j.issn.1001-3695.2014.07.017
[7] (Liu Song, Zhang Dexian.Mutual Information Feature Selection Method Based on Weight Difference and Categories Association[J]. Application Research of Computers, 2014, 31(7): 1998-2000.)
doi: 10.3969/j.issn.1001-3695.2014.07.017
[8] Uğuz H.A Two-stage Feature Selection Method for Text Categorization by Using Information Gain, Principal Component Analysis and Genetic Algorithm[J]. Knowledge- Based Systems, 2011, 24(7): 1024-1032.
doi: 10.1016/j.knosys.2011.04.014
[9] 邬开俊, 鲁怀伟. 采用并行协同进化遗传算法的文本特征选择[J]. 系统工程理论与实践, 2012, 32(10): 2215-2220.
doi: 10.3969/j.issn.1000-6788.2012.10.012
[9] (Wu Kaijun, Lu Huaiwei.PCGA Used to Solve Text Feature Selection[J]. Systems Engineering — Theory & Practice, 2012, 32(10): 2215-2220.)
doi: 10.3969/j.issn.1000-6788.2012.10.012
[10] Lu Y, Liang M, Ye Z, et al.Improved Particle Swarm Optimization Algorithm and Its Application in Text Feature Selection[J]. Applied Soft Computing, 2015, 35(C): 629-636.
doi: 10.1016/j.asoc.2015.07.005
[11] Dadaneh B Z, Markid H Y, Zakerolhosseini A.Unsupervised Probabilistic Feature Selection Using Ant Colony Optimization[J]. Expert Systems with Applications, 2016, 53: 27-42.
doi: 10.1016/j.eswa.2016.01.021
[12] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[12] (Li Zhipeng, Li Weizhong.Feature Selection Based on Modified QPSO Algorithm[J]. Data Analysis and Knowledge Discovery, 2017, 1(7): 82-89.)
[13] 潘文超. 果蝇最佳化演算法[M]. 台北: 沧海书局, 2011: 10-12.
[13] (Pan Wenchao.Fruit Fly Optimization Algorithm [M]. Taipei: Tsang Hai Publishing Co., 2011: 10-12.)
[14] 肖振久, 孙健, 王永滨, 等. 基于果蝇优化算法的小波域数字水印算法[J]. 计算机应用, 2015, 35(9): 2527-2530.
doi: 10.11772/j.issn.1001-9081.2015.09.2527
[14] (Xiao Zhenjiu, Sun Jian, Wang Yongbin, et al.Wavelet Domain Digital Watermarking Method Based on Fruit Fly Optimization Algorithm[J]. Journal of Computer Applications, 2015, 35(9): 2527-2530.)
doi: 10.11772/j.issn.1001-9081.2015.09.2527
[15] Li M W, Geng J, Han D F, et al.Ship Motion Prediction Using Dynamic Seasonal RvSVR with Phase Space Reconstruction and the Chaos Adaptive Efficient FOA[J]. Neurocomputing, 2016, 174: 661-680.
doi: 10.1016/j.neucom.2015.09.089
[16] 耿立艳, 陈丽华. 基于FOA优化混合核LSSVM的铁路货运量预测[J]. 计算机应用研究, 2017, 34(2): 409-412.
doi: 10.3969/j.issn.1001-3695.2017.02.020
[16] (Geng Liyan, Chen Lihua.Forecast on Railway Traffic Volume Using Mixed-kernel LSSVM Optimized by FOA[J]. Application Research of Computers, 2017, 34(2): 409-412.)
doi: 10.3969/j.issn.1001-3695.2017.02.020
[17] 田旭, 李杰. 一种改进的果蝇优化算法及其在气动优化设计中的应用[J]. 航空学报, 2017, 38(4): 120370.
doi: 10.7527/S1000-6893.2016.0198
[17] (Tian Xu, Li Jie.An Improved Fruit Fly Optimization Algorithm and Its Application in Aerodynamic Optimization Design[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(4): 120370.)
doi: 10.7527/S1000-6893.2016.0198
[18] 徐同伟, 何庆, 吴意乐, 等. 基于量子果蝇优化的认知无线网络频谱分配[J]. 计算机应用研究, 2017, 34(10): 3116-3120.
doi: 10.3969/j.issn.1001-3695.2017.10.052
[18] (Xu Tongwei, He Qing, Wu Yile, et al.Spectrum Allocation Based on Quantum Fruit Fly Optimization Algorithm in Cognitive Radio Network[J]. Application Research of Computers, 2017, 34(10): 3116-3120.)
doi: 10.3969/j.issn.1001-3695.2017.10.052
[19] 王岩, 张波, 薛博. 基于FOA-SVM的中文文本分类方法研究[J]. 四川大学学报: 自然科学版, 2016, 53(4): 759-763.
[19] (Wang Yan, Zhang Bo, Xue Bo.Research on Chinese Classification Based on FOA-SVM[J]. Journal of Sichuan University: Natural Science Edition, 2016, 53(4): 759-763.)
[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn