Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (7): 82-89     https://doi.org/10.11925/infotech.2096-3467.2017.07.10
  首届"数据分析与知识发现"学术研讨会专辑(I) 本期目录 | 过刊浏览 | 高级检索 |
基于可拓小生境量子粒子群算法的特征选择*
李志鹏(), 李卫忠
空军工程大学防空反导学院 西安 710051
Feature Selection Based on Modified QPSO Algorithm
Li Zhipeng(), Li Weizhong
Air and Missile Defense College, Air Force Engineering University, Xi’an 710051, China
全文: PDF (724 KB)   HTML ( 2
输出: BibTeX | EndNote (RIS)      
摘要 

目的】对适用于特征选择的算法进行研究, 有效提高文本分类精度和效率。【方法】结合特征选择特点, 以可拓理论为基础构造小生境量子粒子群算法, 通过改进增强算法搜索能力, 将不同的特征选择方法用于文本分类并进行比较。【结果】实验结果表明, 与IG、MI等方法相比, 基于可拓小生境量子粒子群算法的特征选择在文本分类中取得了较好效果, 算法的求解精度得到明显提升。【局限】所提出的特征选择方法在时间效率上有待改善。【结论】对量子粒子群算法的改进措施有效提高了算法的搜索能力, 在特征选择的应用中达到较好的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李志鹏
李卫忠
关键词 特征选择量子粒子群可拓理论小生境适应度共享    
Abstract

[Objective] This study proposes an algorithm for feature selection aiming to improve the precision and efficiency of text classification. [Methods] First, we selected features based on their characteristics. Then, we constructed the algorithm with extension theory to strengthen its searching ability. Finally, we compared the performance of different methods for text classification. [Results] Compared with IG, MI and QPSO, the proposed algorithm had better accuracy in feature selection. [Limitations] The efficiency of our algorithm needs to be improved. [Conclusions] The modified QPSO Algorithm is an effective way to select features.

Key wordsFeature Selection    Quantum-behaved Particle Swarm    Extenics    Niche    Fitness Sharing
收稿日期: 2017-05-27      出版日期: 2017-09-13
ZTFLH:  TP301  
基金资助:*本文系国家自然科学基金项目“基于ELM和D-S证据理论的‘低慢小’目标识别中的不确定信息融合方法研究”(项目编号: 61503407)的研究成果之一
引用本文:   
李志鹏, 李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
Li Zhipeng,Li Weizhong. Feature Selection Based on Modified QPSO Algorithm. Data Analysis and Knowledge Discovery, 2017, 1(7): 82-89.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.07.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I7/82
类别 训练文档数 测试文档数
计算机 628 591
太空 506 248
军事 74 75
体育 584 489
历史 466 468
政治 573 482
经济 480 419
艺术 510 286
农业 547 435
环境 405 371
  语料库文档数目
类别 判断属此类 判断不属此类
判断属此类 a b
判断不属此类 c d
  判别结果说明
类别 NOL-QPSO IG MI QPSO
P(%) R(%) F1值(%) P(%) R(%) F1值(%) P(%) R(%) F1值 P(%) R(%) F1值(%)
计算机 94.26 93.88 94.07 85.24 82.46 83.83 81.52 85.49 83.46 80.04 76.52 78.24
太空 95.21 94.54 94.87 80.59 78.96 79.77 80.92 82.57 81.74 75.83 77.20 76.51
军事 94..27 93.56 93.91 76.42 80.12 78.23 83.10 79.86 81.45 76.44 72.56 74.45
体育 93.58 94.08 93.83 84.46 85.60 85.03 79.56 81.54 80.54 69.38 76.17 72.62
历史 92.25 93.50 92.87 82.42 81.86 82.14 82.06 80.46 81.25 72.56 71.39 71.97
政治 90.10 91.92 91.00 80.88 82.43 81.65 74.28 78.54 76.35 75.18 78.66 76.88
经济 94.73 93.52 94.12 84.26 80.85 82.52 81.72 85.22 83.43 76.29 72.36 74.27
艺术 94.20 90.84 92.49 88.24 84.96 86.57 82.91 78.53 80.66 76.80 71.22 73.90
农业 95.78 94.22 94.99 80.56 76.84 78.66 80.48 79.31 79.89 67.12 76.18 71.36
环境 92.46 90.68 91.56 76.85 80.47 78.62 78.19 67.12 72.23 81.03 80.56 80.79
均值 93.684 93.074 93.378 81.992 81.455 81.723 80.474 79.864 80.168 75.067 75.282 75.174
  实验结果
  实验结果比较
  4种方法性能对比
所用方法 NOL-QPSO MI IG QPSO
运行时间(s) 1 744 1 541 1 496 1 598
  算法平均运行时间
[1] 何熊熊, 管俊轶, 叶宣佐. 一种基于密度和网格的簇心可确定聚类算法[J]. 控制与决策, 2017, 32(5): 913-919.
[1] (He Xiongxiong, Guan Junyi, Ye Xuanzuo.A Density-based and Grid-based Cluster Centers Determination Clustering Algorithm[J]. Control and Decision, 2017, 32(5): 913-919.)
[2] 任俊亮, 邢清华, 李强, 等. 采用自适应概率粒子群算法的反导预警资源调度方法[J]. 空军工程大学学报: 自然科学版, 2014, 15(6): 45-48.
doi: 10.3969/j.issn.1009-3516.2014.06.010
[2] (Ren Junliang, Xing Qinghua, Li Qiang, et al.Resource Scheduling Method of Missile Defense Ear1y Warning System Based on Self-Adaptive Probability Particle Swam Optimization[J]. Journal of Air Force Engineering University: Natural Science Edition, 2014, 15(6): 45-48.)
doi: 10.3969/j.issn.1009-3516.2014.06.010
[3] Sun J, Feng B, Xu W B.Particle Swarm Optimization with Particle Having Quantum Behavior [C]//Proceedings of Congress on Evolutionary Computation, Portland.USA: IEEE Press, 2004, 1: 325-331.
[4] Sun J, Xu W B, Feng B.Adaptive Parameter Control for Quantum Behaved Particle Swarm Optimization on Individual Level[C]//Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Piscataway: IEEE Press, 2005: 3049-3054.
[5] 路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014(4): 48-57.
[5] (Lu Yonghe, Liang Minghui.Improvement of Text Feature Extraction with Genetic Algorithm[J]. New Technology of Library and Information Service, 2014(4): 48-57.)
[6] 刘逵, 周竹荣. 基于野草算法的文本特征选择[J]. 计算机应用, 2012, 32(8): 2245-2249.
doi: 10.3724/SP.J.1087.2012.02245
[6] (Liu Kui, Zhou Zhurong.Text Feature Selection Method Based on Invasive Weed Optimization[J]. Journal of Computer Applications, 2012, 32(8): 2245-2249.)
doi: 10.3724/SP.J.1087.2012.02245
[7] 林令娟, 刘希玉. 基于微粒群优化的快速K-近邻分类算法[J]. 山东科学, 2009, 22(1): 13-16.
[7] (Lin Lingjuan, Liu Xiyu.A Particle Swarm Optimization Based Rapid K-nearest Neighbor Classification Algorithm[J]. Shandong Science, 2009, 22(1): 13-16.)
[8] 李欢, 焦建民. 简化的粒子群优化快速KNN分类算法[J]. 计算机工程与应用, 2008, 44(32): 57-59.
[8] (Li Huan, Jiao Jianmin.Improved Simplified PSO KNN Classification Algorithm[J]. Computer Engineering and Applications, 2008, 44(32): 57-59.)
[9] 拓守恒. 基于改进PSO的SVM文本分类研究[J]. 电脑开发与应用, 2010, 23(10): 3-5, 8.
doi: 10.3969/j.issn.1003-5850.2010.10.002
[9] (Tuo Shouheng.Research on Text Categorization Based on Support Vector Machine Optimized by Particle Swarm Optimization Algorithm[J]. Computer Development & Applications, 2010, 23(10): 3-5, 8.)
doi: 10.3969/j.issn.1003-5850.2010.10.002
[10] 孙洋. 粒子群算法的改进及其在文本分类上的应用[J]. 中央民族大学学报: 自然科学版, 2008, 17(3): 57-62.
[10] (Sun Yang.The Improvement of PSO Algorithm and Application of Text Classifier[J]. Journal of the Central University for Nationalities: Natural Sciences Edition, 2008, 17(3): 57-62.)
[11] 徐辉. 基于混沌二进制粒子群优化的KNN文本分类算法[J]. 微电子学与计算机, 2012, 29(8): 204-208.
[11] (Xu Hui.KNN Text Classification Algorithm Based on Chaotic Binary Particle Swarm Optimization[J]. Microelectronics & Computer, 2012, 29(8): 204-208.)
[12] 谭德坤. 基于混沌微粒群算法的文本分类研究[J]. 计算机应用研究, 2010, 27(12): 4464-4466.
doi: 10.3969/j.issn.1001-3695.2010.12.018
[12] (Tan Dekun.Research of Chinese Text Categorization Based on Chaotic Particle Swarm Optimization[J]. Application Research of Computers, 2010, 27(12): 4464-4466.)
doi: 10.3969/j.issn.1001-3695.2010.12.018
[13] 朱颢东, 钟勇. 基于并行二进制免疫量子粒子群优化的特征选择方法[J]. 控制与决策, 2010, 25(1): 53-63.
[13] (Zhu Haodong, Zhong Yong.Feature Selection Method Based on PBIQPSO[J]. Control and Decision, 2010, 25(1): 53-63.)
[14] 孔莉芳, 张虹. 用于特征子集选择的异步并行微粒群优化方法[J]. 控制与决策, 2012, 27(7): 967-973.
[14] (Kong Lifang, Zhang Hong.Asynchronous Parallel Particle Swarm Optimizer for Feature Subset Selection[J]. Control and Decision, 2012, 27(7): 967-973.)
[15] 巩敦卫, 胡滢, 张勇. 基于多目标微粒群优化的异质数据特征选择[J]. 电子学报, 2014, 42(7): 1320-1326.
doi: 10.3969/j.issn.0372-2112.2014.07.012
[15] (Gong Dunwei, Hu Ying, Zhang Yong.Feature Selection of Heterogeneous Data Based on Multi-objective Particle Swarm Optimization[J]. Acta Electronica Sinica, 2014, 42(7): 1320-1326.)
doi: 10.3969/j.issn.0372-2112.2014.07.012
[16] 付强, 王刚, 王明宇, 等. 基于小生境遗传算法的制导雷达误差估计[J]. 空军工程大学学报: 自然科学版, 2011, 11(6): 50-53.
doi: 10.3969/j.issn.1009-3516.2011.06.010
[16] (Fu Qiang, Wang Gang, Wang Mingyu, et al.Research of Guidance Radar Error Estimation Based on the Niche Genetic Algorithm[J]. Journal of Air Force Engineering University: Natural Science Edition, 2011, 11(6): 50-53.)
doi: 10.3969/j.issn.1009-3516.2011.06.010
[17] 杨春燕, 蔡文. 可拓学[M]. 北京: 科学出版社, 2014: 18-96.
[17] (Yang Chunyan, Cai Wen.Extenics[M]. Beijing: Science Press, 2014: 18-96.)
[18] 赵敏, 林道荣, 瞿波, 等. 一种新的基于小生境模拟退火的遗传算法[J].辽宁工程技术大学学报: 自然科学版, 2013, 32(3): 367-372.
[18] (Zhao Min, Lin Daorong, Qu Bo, et al.A New Genetic Algorithm Based on Niche Simulated Annealing[J]. Journal of Liaoning Technical University: Natural Science, 2013, 32(3): 367-372.)
[19] 李中华, 张泰山. 可拓聚类适应度共享小生境遗传算法研究[J]. 哈尔滨工业大学学报, 2016, 48(5): 178-183.
doi: 10.11918/j.issn.0367-6234.2016.05.029
[19] (Li Zhonghua, Zhang Taishan.Research of Fitness Sharing Niche Genetic Algorithms Based on Extension Clustering[J]. Journal of Harbin Institute of Technology, 2016, 48(5): 178-183.)
doi: 10.11918/j.issn.0367-6234.2016.05.029
[20] 曾维宏. 基于粗糙集理论的数据挖掘算法研究[D]. 郑州: 郑州大学, 2005.
[20] (Zeng Weihong.Research of Reduction Algorithm Based on Rough Set Theory [D]. Zhengzhou: Zhengzhou University, 2005.)
[21] 张珂, 黄永峰, 李星. 一种基于适应度和节点聚类的P2P拓扑建模方法[J]. 电子学报, 2010, 38(7): 1634-1640.
[21] (Zhang Ke, Huang Yongfeng, Li Xing.A Model for Topology of P2P Network Based on Fitness and Node Clustering[J]. Acta Electronica Sinica, 2010, 38(7): 1634-1640.)
[22] 谭熠峰, 孙婷婷, 徐新民. 基于动态因子和共享适应度的改进粒子群算法[J]. 浙江大学学报: 理学版, 2016, 43(6): 696-700.
doi: 10.3785/j.issn.1008-9497.2016.06.014
[22] (Tan Yifeng, Sun Tingting, Xu Xinmin.A Modified Particle Swarm Optimization Algorithm Based on Dynamic Learning Factors and Sharing Method[J]. Journal of Zhejiang University: Science Edition, 2016, 43(6): 696-700.)
doi: 10.3785/j.issn.1008-9497.2016.06.014
[23] 邵鹏, 吴志健, 周炫余, 等. 基于折射原理反向学习模型的改进粒子群算法[J]. 电子学报, 2015, 43(11): 2137-2144.
doi: 10.3969/j.issn.0372-2112.2015.11.001
[23] (Shao Peng, Wu Zhijian, Zhou Xuanyu, et al.Improved Particle Swarm Optimization Algorithm Based on Opposite Learning of Refraction[J]. Acta Electronica Sinica, 2015, 43(11): 2137-2144.)
doi: 10.3969/j.issn.0372-2112.2015.11.001
[1] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[2] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[3] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[4] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[5] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[6] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[7] 操玮, 李灿, 贺婷婷, 朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[8] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[9] 李湘东, 阮涛, 刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[10] 路永和, 陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
[11] 孟园,王洪伟. 基于文本内容特征选择的评论质量检测*[J]. 现代图书情报技术, 2016, 32(4): 40-47.
[12] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015, 31(5): 42-49.
[13] 徐冬冬, 吴韶波. 一种基于类别描述的TF-IDF特征选择方法的改进[J]. 现代图书情报技术, 2015, 31(3): 39-48.
[14] 谭学清, 周通, 罗琳. 一种基于类平均相似度的文本分类算法[J]. 现代图书情报技术, 2014, 30(9): 66-73.
[15] 顾晓雪, 章成志. 结合内容和标签的Web文本聚类研究[J]. 现代图书情报技术, 2014, 30(11): 45-52.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn