遗传算法在改进文本特征提取方法中的应用
*
路永和
, 梁明辉
Improvement of Text Feature Extraction with Genetic Algorithm
Lu Yonghe
, Liang Minghui
1 搜狗语料库 遗传算法提取的特征维数为600以下包括600维, CHI、IG和CHI_IG提取的特征均为600维。通过CHI与IG方法预提取800维, 再去除重复后形成的特征池候选特征数量为1 125。遗传算法提取的特征维数为300以下包括300维, CHI、IG和CHI_IG提取的特征均为300维。通过CHI与IG方法预提取350维, 再去除重复后形成的特征池候选特征数量为527。 600维条件下与300维条件下实验数据的对比, 分别如图3至图6所示: 图3 时间性能对比图搜狗语料库