%A 路永和, 梁明辉 %T 遗传算法在改进文本特征提取方法中的应用 %0 Journal Article %D 2014 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2014.04.08 %P 48-57 %V 30 %N 4 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_3885.shtml} %8 2014-04-25 %X

[目的] 综合分析特征提取方法并对传统特征提取流程和方法进行改进。[方法] 利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。[结果] 改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。[局限] 实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。[结论] 加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。