Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (5): 59-69     https://doi.org/10.11925/infotech.2096-3467.2017.1119
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于改进的果蝇优化算法的文本特征选择优化模型
温廷新1, 李洋子1(), 孙静霜2
1辽宁工程技术大学系统工程研究所 葫芦岛市 125105
2辽宁工程技术大学工商管理学院 葫芦岛市 125105
Extracting Text Features with Improved Fruit Fly Optimization Algorithm
Wen Tingxin1, Li Yangzi1(), Sun Jingshuang2
1Institute of Systems Engineering, Liaoning Technical University, Huludao 125105, China
2 College of Business Administration, Liaoning Technical University, Huludao 125105, China
全文: PDF (1207 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 降低文本特征向量空间的维度, 提高文本分类准确率。【方法】 提出一种基于改进果蝇优化算法的文本特征选择优化新模型——IFOATFSO模型, 该模型引入分类准确率方差, 监控模型收敛程度; 引入模拟退火机制及遗传算法的交叉算子、轮盘赌选择法, 加深全局搜索, 提高种群多样性。【结果】 在CHI方法基础上应用IFOATFSO模型优化特征选择, 大幅度地降低特征维度, 提高文本分类准确率, 最大提高幅度能够达到10.5%。【局限】IFOATFSO模型优化英文文本特征效果略逊于优化中文文本特征效果。【结论】 IFOATFSO模型优化特征选择一定程度上可以改进文本分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
温廷新
李洋子
孙静霜
关键词 文本特征选择果蝇优化算法分类准确率方差    
Abstract

[Objective] This paper tries to reduce the dimension of text feature vector space and then improves the accuracy of text classification. [Methods] We proposed a text feature selection model IFOATFSO based on the improved fruit fly optimization algorithm. It introduced the classification accuracy variance to monitor the convergence degree of the model. We also used the crossover operator, roulette wheel selection method based on simulated annealing mechanism and genetic algorithm to deepen global search and improve population diversity. [Results] The IFOATFSO model, which optimized the feature selection based on CHI method, not only reduced the feature dimension, but also improved the accuracy of text classification by up to 10.5%. [Limitations] The performance of IFOATFSO model for extracting English text features needs to be improved. [Conclusions] The IFOATFSO model improves the text classification.

Key wordsText Feature Selection    Fruit Fly Optimization Algorithm    Classification Accuracy Variance
收稿日期: 2017-11-08      出版日期: 2018-06-20
ZTFLH:  TP391  
引用本文:   
温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
Wen Tingxin,Li Yangzi,Sun Jingshuang. Extracting Text Features with Improved Fruit Fly Optimization Algorithm. Data Analysis and Knowledge Discovery, 2018, 2(5): 59-69.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1119      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I5/59
  IFOATFSO模型—初始寻优流程
  IFOATFSO模型—迭代寻优流程
  英文语料库Naive Bayes分类器各维度100次迭代分类准确率
  英文语料库SVM分类器各维度100次迭代分类准确率
  中文语料库Naive Bayes分类器各维度100次迭代分类准确率
  中文语料库SVM分类器各维度100次迭代分类准确率
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.716
0.802
0.812
0.820
0.820
0.831
0.741
0.815
0.818
0.841
0.834
0.838
  Naive Bayes分类器分类准确率比较
  Naive Bayes分类器分类准确率比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.759
0.852
0.845
0.850
0.846
0.817
0.783
0.859
0.889
0.880
0.858
0.867
  SVM分类器分类准确率比较
  SVM分类器分类准确率比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
160
291
417
577
691
870
  Naive Bayes分类器特征数目比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
151
307
452
565
683
844
  SVM分类器特征数目比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.540
0.658
0.689
0.712
0.705
0.713
0.578
0.690
0.712
0.717
0.721
0.736
  Naive Bayes分类器分类准确率比较
  Naive Bayes分类器分类准确率比较
方法
维度
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
0.628
0.604
0.625
0.623
0.673
0.671
0.638
0.709
0.652
0.695
0.768
0.773
  SVM分类器分类准确率比较
  SVM分类器分类准确率比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
148
307
452
579
732
907
  Naive Bayes分类器特征数目比较
CHI CHI-IFOATFSO
300
600
900
1 200
1 500
1 800
155
293
448
614
736
906
  SVM分类器特征数目比较
  卡方检验
[1] 林艳峰. 中文文本分类特征选择方法的研究与实现[D]. 西安: 西安电子科技大学, 2014.
[1] (Lin Yanfeng.Research and Implementation of Feature Selection in Chinese Text Classification [D]. Xi’an : Xidian University, 2014.)
[2] 范雪莉, 冯海泓, 原猛. 基于互信息的主成分分析特征选择算法[J]. 控制与决策, 2013, 28(6): 915-919.
[2] (Fan Xueli, Feng Haihong, Yuan Meng.PCA Based on Mutual Information for Feature Selection[J]. Control and Decision, 2013, 28(6): 915-919.)
[3] 路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014(4): 48-57.
[3] (Lu Yonghe, Liang Minghui.Improvement of Text Feature Extraction with Genetic Algorithm[J]. New Technology of Library and Information Service, 2014(4): 48-57.)
[4] 张彪. 文本分类中特征选择算法的分析与研究[D]. 合肥: 中国科学技术大学, 2010.
[4] (Zhang Biao.Analysis and Research on Feature Selection Algorithm for Text Classification [D]. Hefei: University of Science and Technology of China, 2010.)
[5] 邱云飞, 王威, 刘大有, 等. 基于方差的CHI特征选择方法[J]. 计算机应用研究, 2012, 29(4): 1304-1306.
[5] (Qiu Yunfei, Wang Wei, Liu Dayou, et al.CHI Feature Selection Method Based on Variance[J]. Application Research of Computers, 2012, 29(4): 1304-1306.)
[6] 石慧, 贾代平, 苗培. 基于词频信息的改进信息增益文本特征选择算法[J]. 计算机应用, 2014, 34(11): 3279-3282.
doi: 10.11772/j.issn.1001-9081.2014.11.3279
[6] (Shi Hui, Jia Daiping, Miao Pei.Improved Information Gain Text Feature Selection Algorithm Based on Word Frequency Information[J]. Journal of Computer Applications, 2014, 34(11): 3279-3282.)
doi: 10.11772/j.issn.1001-9081.2014.11.3279
[7] 刘松, 张德贤. 基于权重差异和类别关联的互信息改进研究[J]. 计算机应用研究, 2014, 31(7): 1998-2000.
doi: 10.3969/j.issn.1001-3695.2014.07.017
[7] (Liu Song, Zhang Dexian.Mutual Information Feature Selection Method Based on Weight Difference and Categories Association[J]. Application Research of Computers, 2014, 31(7): 1998-2000.)
doi: 10.3969/j.issn.1001-3695.2014.07.017
[8] Uğuz H.A Two-stage Feature Selection Method for Text Categorization by Using Information Gain, Principal Component Analysis and Genetic Algorithm[J]. Knowledge- Based Systems, 2011, 24(7): 1024-1032.
doi: 10.1016/j.knosys.2011.04.014
[9] 邬开俊, 鲁怀伟. 采用并行协同进化遗传算法的文本特征选择[J]. 系统工程理论与实践, 2012, 32(10): 2215-2220.
doi: 10.3969/j.issn.1000-6788.2012.10.012
[9] (Wu Kaijun, Lu Huaiwei.PCGA Used to Solve Text Feature Selection[J]. Systems Engineering — Theory & Practice, 2012, 32(10): 2215-2220.)
doi: 10.3969/j.issn.1000-6788.2012.10.012
[10] Lu Y, Liang M, Ye Z, et al.Improved Particle Swarm Optimization Algorithm and Its Application in Text Feature Selection[J]. Applied Soft Computing, 2015, 35(C): 629-636.
doi: 10.1016/j.asoc.2015.07.005
[11] Dadaneh B Z, Markid H Y, Zakerolhosseini A.Unsupervised Probabilistic Feature Selection Using Ant Colony Optimization[J]. Expert Systems with Applications, 2016, 53: 27-42.
doi: 10.1016/j.eswa.2016.01.021
[12] 李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[12] (Li Zhipeng, Li Weizhong.Feature Selection Based on Modified QPSO Algorithm[J]. Data Analysis and Knowledge Discovery, 2017, 1(7): 82-89.)
[13] 潘文超. 果蝇最佳化演算法[M]. 台北: 沧海书局, 2011: 10-12.
[13] (Pan Wenchao.Fruit Fly Optimization Algorithm [M]. Taipei: Tsang Hai Publishing Co., 2011: 10-12.)
[14] 肖振久, 孙健, 王永滨, 等. 基于果蝇优化算法的小波域数字水印算法[J]. 计算机应用, 2015, 35(9): 2527-2530.
doi: 10.11772/j.issn.1001-9081.2015.09.2527
[14] (Xiao Zhenjiu, Sun Jian, Wang Yongbin, et al.Wavelet Domain Digital Watermarking Method Based on Fruit Fly Optimization Algorithm[J]. Journal of Computer Applications, 2015, 35(9): 2527-2530.)
doi: 10.11772/j.issn.1001-9081.2015.09.2527
[15] Li M W, Geng J, Han D F, et al.Ship Motion Prediction Using Dynamic Seasonal RvSVR with Phase Space Reconstruction and the Chaos Adaptive Efficient FOA[J]. Neurocomputing, 2016, 174: 661-680.
doi: 10.1016/j.neucom.2015.09.089
[16] 耿立艳, 陈丽华. 基于FOA优化混合核LSSVM的铁路货运量预测[J]. 计算机应用研究, 2017, 34(2): 409-412.
doi: 10.3969/j.issn.1001-3695.2017.02.020
[16] (Geng Liyan, Chen Lihua.Forecast on Railway Traffic Volume Using Mixed-kernel LSSVM Optimized by FOA[J]. Application Research of Computers, 2017, 34(2): 409-412.)
doi: 10.3969/j.issn.1001-3695.2017.02.020
[17] 田旭, 李杰. 一种改进的果蝇优化算法及其在气动优化设计中的应用[J]. 航空学报, 2017, 38(4): 120370.
doi: 10.7527/S1000-6893.2016.0198
[17] (Tian Xu, Li Jie.An Improved Fruit Fly Optimization Algorithm and Its Application in Aerodynamic Optimization Design[J]. Acta Aeronautica et Astronautica Sinica, 2017, 38(4): 120370.)
doi: 10.7527/S1000-6893.2016.0198
[18] 徐同伟, 何庆, 吴意乐, 等. 基于量子果蝇优化的认知无线网络频谱分配[J]. 计算机应用研究, 2017, 34(10): 3116-3120.
doi: 10.3969/j.issn.1001-3695.2017.10.052
[18] (Xu Tongwei, He Qing, Wu Yile, et al.Spectrum Allocation Based on Quantum Fruit Fly Optimization Algorithm in Cognitive Radio Network[J]. Application Research of Computers, 2017, 34(10): 3116-3120.)
doi: 10.3969/j.issn.1001-3695.2017.10.052
[19] 王岩, 张波, 薛博. 基于FOA-SVM的中文文本分类方法研究[J]. 四川大学学报: 自然科学版, 2016, 53(4): 759-763.
[19] (Wang Yan, Zhang Bo, Xue Bo.Research on Chinese Classification Based on FOA-SVM[J]. Journal of Sichuan University: Natural Science Edition, 2016, 53(4): 759-763.)
[1] 王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
[2] 翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫. 不均衡数据集下基于CNN的中图分类标引方法 *[J]. 数据分析与知识发现, 2020, 4(7): 87-95.
[3] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[4] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[5] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[6] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析 *[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[7] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
[8] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[9] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[10] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
[11] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[12] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[13] 叶光辉, 徐彤. 基于演化分析的动态城市画像研究 [J]. 数据分析与知识发现, 0, (): 1-.
[14] 李军莲,吴英杰,邓盼盼,冷伏海. 基于特征融合的引文失范数据自动处理策略研究*[J]. 数据分析与知识发现, 2020, 4(5): 38-45.
[15] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn