遗传算法在改进文本特征提取方法中的应用<sup>*</sup>

引用本文

路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用^* . 现代图书情报技术, 2014, 30(4): 48-58
Lu Yonghe, Liang Minghui. Improvement of Text Feature Extraction with Genetic Algorithm. New technology of library and information service, 2014, 30(4): 48-58 复制到剪切板

Permissions

《现代图书情报技术》编辑部

遗传算法在改进文本特征提取方法中的应用^*

路永和, 梁明辉

中山大学资讯管理学院广州 510006

路永和 E-mail:zsuluyonghe@163.com

作者贡献声明：

路永和: 提出研究思路, 设计研究方案; 最终版本修订;

梁明辉: 实验, 数据的获取与分析;

路永和, 梁明辉: 论文起草。

基金:本文系国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(项目编号: 71373291); 国家高技术研究发展计划(863 计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号: 2012AA101701)的研究成果之一。;

摘要

【目的】综合分析特征提取方法并对传统特征提取流程和方法进行改进。【方法】利用特征池进行特征词预选, 引入遗传算法对候选特征词分组编码并提取最佳特征向量。【结果】改进的文本特征提取方法在使用KNN计算适应度值时效果最佳, 而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时, 分类准确率更加稳定。【局限】实验语料库质量有待提高; 构造特征池时只使用CHI和IG两种特征提取方法; 使用分组编码时没考虑词与词之间的语义关系; 种群数量和迭代次数受限于计算的复杂性。【结论】加入特征池进行特征预提取能够提高文本分类准确率的稳定性, 而加入遗传算法到文本特征提取中可以提高特征提取的效果, 遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。

关键词: 文本分类; 特征提取; 遗传算法; 特征池

中图分类号:G254 TP391 文章编号:2014-4-48-58

Improvement of Text Feature Extraction with Genetic Algorithm

Lu Yonghe, Liang Minghui

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

Fund:

Abstract

[Objective] To comprehensively analyze many feature extraction methods and improve traditional feature extraction process.[Methods] Firstly, the paper uses feature pool to pre-extract features, then extract best feature set by genetic algorithm and group coding.[Results] When the fitness function uses KNN classification algorithm, the method using in this paper shows the best performance. Besides, the effect is more obvious with less feature dimensions. Simultaneously, the proposed method has better stability in text classification for different feature dimensions and corpuses.[Limitations] The corpus is not abundant enough. Only IG and CHI are used to extract features for feature pool construction. It ignores semantic relationships among words for group coding. The population size and the number of iteration in genetic algorithm are restricted by experimental conditions.[Conclusions] The stability of text classification is improved by adding a feature pool to pre-extract features. The result of text classification is more accurate by adding genetic algorithm in the text feature extraction. To use proposed method reduces overfitting of features and improves efficiency by utilizing group coding in the genetic algorithm.

Keyword: Text categorization; Feature extraction; Genetic algorithms; Feature pool

Show Figures

1 引言

文本分类方法主要有贝叶斯、KNN、类中心、支持向量机等^{[ 1]}, 文本表示一般使用向量空间模型(Vector Space Model, VSM)中的特征向量来表示, 其维数可以达到几万维甚至几十万维。特征向量能否很好地表示不同文本的特性直接影响到文本分类的精度, 因此文本分类中特征提取方法的好坏对文本分类的效果有重要影响。因为特征维数过多会影响分类器的训练效果, 而过少则又不足以很好地表示各类文本的特点。所以有必要研究并找到一种既能减小特征向量空间维数又能保证有较优的分类效果的特征提取方法。本文采用遗传算法并且加入特征池和候选特征分组编码来优化特征提取, 以进一步提高文本分类的准确率。

2 相关研究

2.1 文本特征提取方法

目前常用的特征提取方法有文档频率(DF)、信息增益(IG)、互信息(MI)、卡方检验(CHI)、期望交叉熵(ECE)和几率比(OR)等^{[ 2]}。卡方检验和互信息都表示文本分类中的特征和类别之间的相关性, CHI或MI的值越大, 表明特征与类别的相关性越强。信息增益IG主要是根据特征项在文档中出现与否来计算它为分类预测所贡献的信息比特数。特征的文档频率DF是指在训练样本集中出现该特征的样本数^{[ 3]}。

这几种文本特征提取方法没有绝对的最优, CHI的分类效果好但计算代价较高^{[ 4]}。对于分类效果而言, 在英文数据集的分类中, CHI与IG效果最佳, DF 效果基本与前两者一致, 而MI则相对较差^{[ 2]}; 在中文数据集的分类中, CHI的效果最佳, 其次为IG, 而MI则相对较差^{[ 5]}, DF的效果居中^{[ 4]}。

2.2 遗传算法在文本特征提取中的应用

遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律演化而来的随机化搜索方法。遗传算法组成部分主要有^{[ 6]}: 编码机制、适应度函数、遗传算子(选择、交叉和变异)和控制参数。利用遗传算法求解问题时, 问题的可能解都将被编码成染色体, 即个体。若干个个体组成初始解群, 通过适应度函数计算后, 满足终止条件的个体可以被输出, 算法结束。否则, 个体经过交叉、变异再组合生成下一代新种群, 新种群继承了上一代的优良性状, 优于上一代, 这样就可以逐步朝着更优解的方向进化。

在国外, 密歇根州立大学学者Raymer等利用遗传算法来进行特征降维, 主要思想是通过测量该特征在线性状态和非线性状态下的权重来进行特征的选择^{[ 6]}。美国劳伦斯利弗莫尔国家实验室学者Cantú-Paz提出了一种基于类间分离性的混合遗传算法来进行特征提取^{[ 7]}。印度Dr. M.G.R.大学学者Rajavarman和Rajagopalan提出了一种2-Phase Approach的遗传算法, 并将其应用到大量的多因性疾病数据的特征提取上^{[ 8]}。美国佐治亚州立大学学者Tan等提出了一种改进的数据挖掘的特征提取方法, 结合特征池和遗传算法来进行特征提取^{[ 9]}。

在国内, 天津大学学者郝占刚和王正欧提出了采用潜在语义索引进行首次特征降维, 再用遗传算法进行进一步特征降维的方法^{[ 10]}。中国石油大学学者刘亚南在利用标准的遗传算法进行特征提取的基础上, 提出了一种根据文本特征而设计的适应度函数和交叉规则^{[ 11]}。天津大学学者张志宏等设计了一种基于遗传算法的多种群特征提取方法并应用到顾客行为特征提取领域, 该方法采用最近邻替代遗传策略和局部搜索策略^{[ 12]}。长沙理工大学学者龙鹏飞等将蚁群算法应用到遗传算法的选择操作中, 提出了一种蚁群算法和遗传算法相结合的特征提取方法^{[ 13]}。学者高贤维等将遗传算法与神经网络结合起来运用于特征提取, 实验表明可以有效地提取出重要特征^{[ 14]}。

现在国内外学者利用遗传算法改进文本特征提取方法主要有两个方向:

(1) 把遗传算法和其他智能算法结合使用, 例如将蚁群算法应用于遗传算法中的适应度计算步骤中, 又如用神经网络分类器的效果作为遗传算法的适应度函数。这种改进的好处是能够结合不同算法的优点, 减少遗传算法缺陷的影响。但是这种方法在设计多种算法结合时存在较高难度, 因为不同算法的内在运行机制不尽相同。

(2) 对遗传算法本身的步骤进行改进, 这种方法是目前研究较多的改进方法。对于遗传算法的不同步骤分别提出有针对性的改进方法, 例如设计变量包含特征维数和分类效果的适应度函数、设计高效的特征编码规则等。利用这种方法进行改进的研究有很多并取得一定成果, 但是不足之处是无论怎样修改还是无法避免遗传算法本身不足对整个特征提取方法的影响。

本文提出的方法属于第二个方面。首先, 借鉴了国外学者进行特征预提取的方法, 提出的改进方法在利用遗传算法前加入特征池进行特征预提取, 并且预提取的方法根据中文文本特征的实际情况选取。然后, 在利用遗传算法进行文本特征提取时, 尝试采用分组编码的规则对候选特征进行编码, 意在减少最终特征与训练文本集的过拟合程度, 同时也希望这种分组编码规则可以提高遗传算法在文本特征提取中的运行效率。

3 基于遗传算法的文本特征提取方法的改进

3.1 改进的文本特征提取流程

综合分析现有文本特征提取方法优劣的基础上, 应用遗传算法, 提出一种新的文本特征提取方法, 其基本流程如图1所示:

	Figure Option View Download New Window
	图1 改进的文本特征提取流程

利用CHI、IG特征提取方法各抽取指定维数的特征, 然后通过比较去除重复的词, 得到一个有较多数量的特征词列表, 即特征池。将特征池内的候选特征进行分组。针对特征分组进行遗传算法的个体编码。设定遗传算法的基本参数, 包括交叉概率、变异概率和选择机制等。通过遗传算法迭代选择出最优的特征向量。

3.2 特征池

国外有学者在进行数据挖掘的特征提取时采用多种提取方法, 然后将其提取结果进行整合, 最后得出一个由多种提取方法选择的特征组成的特征池^{[ 9]}。这个特征池为进一步提取最优特征向量提供了候选特征。

对于文本分类而言, 卡方检验(CHI)和信息增益(IG)的特征提取方法是较为常用的特征提取方法, 但是各有其优点和不足, 因此根据这两种方法提取出来的特征向量都不可能是最优的特征向量。为了寻找最优的特征向量, 本文也采用特征池来进行预提取, 整合上述两种特征提取方法所得到的特征, 然后利用遗传算法在特征池中提取出更优的特征向量。

3.3 分组编码规则

遗传算法的编码机制有二进制编码、实数编码、格雷编码、符号编码等。针对不同的问题要采用不同的编码方法。本文采用二进制编码机制, 即当该维特征被选择时, 表示为1; 而当该维特征不被选择时, 表示为0。

由于候选特征的数量比较多, 倘若每维特征都用一个码来表示其选择情况, 那么整个特征提取方法的运算效率必将受到较大影响。因为其他智能优化算法的编码步骤与遗传算法有一定的相似性, 所以本文的编码规则参考了采用粒子群算法进行特征提取时的编码方法^{[ 15]}。此外, 遗传算法的个体在不断进化的过程中, 提取出来的特征集合有可能对训练文本集产生过拟合现象。而因为分组是由几个特征一同组成的, 进化时必须考虑整个分组所有候选特征对分类效果的影响, 因此采用这种编码规则能减少只符合训练文本集特点的特征数量, 从而避免过拟合现象出现。为了减少候选特征分组消耗的时间, 本文采取候选特征随机分组的方法, 组内的特征数量设定为5。

3.4 参数选择

(1) 交叉概率(Pc)

本文使用的遗传算法中的个体是特征向量, 当进行交叉操作时, 两个不同的特征向量中的一部分相互交换, 产生了两个新的特征向量。而这些新的特征向量将会通过选择机制来确定是否留下。交叉操作的目的就是产生新的个体, 防止局部最优解的情况产生, 交叉概率大, 进行交叉的基因就会多一些。相反, 交叉概率较小, 参加交叉的基因则较少一些。交叉概率一般取值0.4-0.9^{[ 16]}。经过多次测试发现, 本文方法的交叉概率取0.5时效果最佳, 因此后续实验均采用0.5作为交叉概率。

(2) 变异概率(Pm)

在遗传算法中, 仅仅通过交叉操作不可能得到新的基因, 而变异操作则可以产生新的基因, 增大种群的多样性。为了防止最优解会因变异而遭到破坏, 变异概率应取较小的值, 一般取值0.001-0.1^{[ 16]}。本文实验采用的变异概率为0.001。

(3) 选择机制

本文采用的是最简单但也是最常用的选择机制: 轮盘赌选择法。在该方法中, 各个个体的选择概率和其适应度值成比例。设群体大小为n, 其中个体i的适应度为f_i, 则i被选择的概率为:

(4) 适应度函数

个体对环境的适应程度叫做适应度(Fitness)。本文提出的特征提取方法主要是为文本分类而做的预处理, 因此适应度函数采用分类准确率。

(5) 其他控制参数

其他控制参数还包括种群规模(M)和进化代数(T)。种群规模M一般定为20-100, 因为M的取值太小不能提供足够的采样点, 而M太大会增加计算量, 延长收敛时间。进化代数T则控制了整个进化过程的迭代次数。由于本文中的特征提取方法计算量比较大, 为了保证运算的效率, 种群规模设定为20, 进化代数设定为20。

3.5 遗传算法进行文本特征提取的具体流程

本文使用遗传算法进行文本特征提取主要有以下几个步骤:

(1) 对候选特征进行编码;

(2) 根据设置的种群数量产生个体(文本特征集合), 形成种群(若干个文本特征集合的集合);

(3) 种群的各个个体根据设置的交叉概率和变异概率进行进化, 产生新个体;

(4) 新个体根据适应度函数计算适应度值(分类准确率);

(5) 根据选择机制决定新个体是否能留下, 形成新的种群;

(6) 如果没有达到设置的迭代次数, 重复步骤(3)-(5), 否则继续步骤(7);

(7) 根据适应度值的大小选出最优个体, 即最佳文本特征集合。

具体流程如图2所示:

	Figure Option View Download New Window
	图2 遗传算法进行文本特征提取具体流程

4 实验结果与分析

4.1 语料库

实验使用的语料库是搜狗文本分类语料库中的一部分和复旦李荣陆教授提供的中文语料库的一部分, 搜狗语料库选取其中的9个类别, 分别是教育、财经、IT、健康、体育、旅游、招聘、军事、文化。训练文本集中每个类别各200篇文本, 共1 800篇。测试文本集每类各100篇, 共900篇。所有文本分词去重后, 共有词语44 158个。复旦语料库选取20个类别中文本较多的9个类别, 分别是Agriculture、Art、Computer、Economy、Environment、History、Politics、Space、Sports。训练文本集中每个类别各200篇文本, 共1 800篇。测试文本集每类各100篇, 共900篇。所有文本分词去重后, 共有词语109 499个。

4.2 实验平台

实验平台基于Java语言开发, IDE环境是Eclipse, 集成了多种开源软件。其中实验平台的文本分词器采用中国科学院分词器ICTCLAS, 索引器采用Lucene 3.0, 各种分类算法调用的是Weka算法, 而遗传算法模块则是改写于遗传算法开源包jpag。所有实验均采用TF-IDF特征权值计算方法。为了减少计算量, 遗传算法的适应度函数中的训练文本集与测试文本集均采用整个实验的训练文本集。

4.3 实验数据

实验采用参照对比方法。针对两个语料库的文本都做了以下实验进行对比: 候选特征分组与不分组进行编码对比, 适应度函数采用KNN分类法与采用朴素贝叶斯分类法的对比, 不同特征维度的对比。对比指标包括: 运行时间、自测分类准确率和分类准确率。因为遗传算法在初始化染色体时每个基因是1还是0的概率一样, 均为0.5, 所以为了保证初始化的种群中大部分个体可用, 特征池中的候选特征数量应少于并尽量接近限制条件的2倍。本实验采用的限制条件有两个, 分别是300维和600维。

实验数据中各种特征提取方法的表述如下:

①CHI: 卡方检验特征提取方法;

②IG: 信息增益特征提取方法;

③CHI_IG: 采用CHI和IG获取的特征池直接作为最终特征集合的方法;

④CHIIG_GAKG: 采用CHI_IG方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 采用候选特征分组编码规则;

⑤CHIIG_GAKNG: 采用CHI_IG方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 不采用候选特征分组编码规则;

⑥CHIIG_GABG: 采用CHI_IG方法获取特征池和遗传算法特征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 采用候选特征分组编码规则;

⑦CHIIG_GABNG: 采用CHI_IG方法获取特征池和遗传算法特征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 不采用候选特征分组编码规则;

⑧CHI_GAKG: 采用CHI方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 采用候选特征分组编码规则;

⑨CHI_GAKNG: 采用CHI方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 不采用候选特征分组编码规则;

CHI_GABG: 采用CHI方法获取特征池和遗传算法特征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 采用候选特征分组编码规则;

CHI_GABNG: 采用CHI方法获取特征池和遗传算法特征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 不采用候选特征分组编码规则;

IG_GAKG: 采用IG方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 采用候选特征分组编码规则;

IG_GAKNG: 采用IG方法获取特征池和遗传算法特征提取方法, 采用KNN分类法结果作为适应度函数, 不采用候选特征分组编码规则;

IG_GABG: 采用IG方法获取特征池和遗传算法特

征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 采用候选特征分组编码规则;

IG_GABNG: 采用IG方法获取特征池和遗传算法特征提取方法, 采用朴素贝叶斯分类法结果作为适应度函数, 不采用候选特征分组编码规则。

(1) 搜狗语料库

遗传算法提取的特征维数为600以下(包括600维), CHI、IG和CHI_IG提取的特征均为600维。通过CHI与IG方法预提取800维, 再去除重复后形成的特征池候选特征数量为1 125。遗传算法提取的特征维数为300以下(包括300维), CHI、IG和CHI_IG提取的特征均为300维。通过CHI与IG方法预提取350维, 再去除重复后形成的特征池候选特征数量为527。

600维条件下与300维条件下实验数据的对比, 分别如图3至图6所示:

	Figure Option View Download New Window
	图3 时间性能对比图(搜狗语料库)

(2) 复旦语料库

遗传算法提取的特征维数为600以下(包括600维), CHI、IG和CHI_IG提取的特征均为600维。通过CHI与IG方法预提取750维, 再去除重复后形成的特征池候选特征数量为1 199。因为复旦语料库的词量比搜狗语料库的词量要大, 在采用遗传算法进行特征提取时运算的复杂度相对高, 所以由于机器性能所限, 对于600维的特征提取, 实验中将遗传算法中种群数量调整为10, 进化代数保持不变。遗传算法提取的特征维数为300以下(包括300维), CHI、IG和CHI_IG提取的特征均为300维。通过CHI与IG方法预提取400维, 再去除重复后形成的特征池候选特征数量为609。

600维条件下与300维条件下实验数据的对比,

	Figure Option View Download New Window
	图4 KNN分类效果对比图(搜狗语料库)

	Figure Option View Download New Window
	图5 朴素贝叶斯分类效果对比图(搜狗语料库)

分别如图6至图8所示。

	Figure Option View Download New Window
	图6 时间性能对比图(复旦语料库)

	Figure Option View Download New Window
	图7 KNN分类效果对比图(复旦语料库)

	Figure Option View Download New Window
	图8 朴素贝叶斯分类效果对比图(复旦语料库)

4.4 数据分析

从以上的结果可以看出: 采用本文提出的特征提取方法比传统特征提取方法的效果有一定提高, 特别是在特征维数较少的情况下。

(1) 时间性能

在时间性能上, 是否采用候选特征分组编码来使用遗传算法会影响整个算法的运行时间。由两个语料库的时间性能对比(图3和图6)可看出, 无论是在300维还是600维的限制条件下, 采用分组编码的方法比不采用分组编码的方法要节省不少时间。其中针对搜狗语料库节省的时间平均为31.25分钟, 限制条件300维为23.17分钟, 而限制条件600维的是为39.33分钟。而针对复旦语料库节省的时间平均为56.67分钟, 限制条件300维为48.33分钟, 而限制条件600维为65分钟。

(2) 分类效果

在特征维数上, CHI、IG和CHI_IG方法都根据限制条件选取不同维数的特征。而对于采用遗传算法进行特征提取的4种方法, 如果限制条件是N维, 那么4种方法最终提取的特征维数略小于或等于N维。在分类的准确率上, 无论从采用KNN分类的对比图还是从采用朴素贝叶斯分类的对比图中都可看出, 在训练文本集自测下采用本文提出的特征提取方法的分类效果均比采用CHI或者IG的方法要好, 比起CHI_IG方法则在不同测试环境下表现各有优劣, 而且采用朴素贝叶斯分类法作为适应度函数的方法自测效果最佳。但是从测试文本集的分类效果来看, 采用KNN分类法作为适应度函数的方法的分类效果普遍比CHI和IG传统两种方法要好, 比起CHI_IG方法表现略好, 但是采用朴素贝叶斯分类法作为适应度函数的方法的分类效果的提高却不明显, 有些情况还会不如传统方法。这种现象表明采用朴素贝叶斯分类法作为适应度函数比采用KNN分类法作为适应度函数更容易出现过拟合现象, 即训练文本集自测分类效果很好, 而测试文本集测试分类效果却不尽理想。

对于限制条件300维和600维, 采用本文提出的特征提取方法在300维的条件下分类效果的提高更为明显。从上面各个实验对比图可以看出, 对于测试文本集, 在CHI、IG或CHI_IG三种方法形成特征池后使用遗传算法进行特征提取, 无论是否采用分组编码规则、采用KNN或朴素贝叶斯作为适应度函数, 都能在分类效果上有所提高。GAKG、GAKNG、GABG和GABNG 4种利用遗传算法提取特征的方法中, GAKG的表现最好。另外, CHI和IG两种方法在不同的测试环境下分类效果很不一致, 例如在300维的情况下, 对于搜狗语料库, 采用KNN分类法时IG方法的效果达到69.33%, 而CHI方法只有42.33%, IG方法比CHI方法要优胜得多。但是对于复旦语料库, IG方法效果只有52.22%, 而CHI方法却达到59.33%。因为在利用CHI或IG方法进行预提取后利用遗传算法继续进行特征提取, 分类效果也只会在CHI或IG方法的基础上有所提高, 所以这些利用遗传算法的特征提取方法的效果是很不稳定的。从实验数据可以看出, CHI_IG方法的分类效果比CHI和IG要稳定得多, 同样在CHI_IG方法基础上利用遗传算法进行特征提取的4种方法的效果也比较稳定。对于是否采用分组编码规则、适应度函数采用KNN或朴素贝叶斯的4种利用遗传算法的特征提取方法中, GAKG的效果最好、GABNG的效果最差, 而且采用分组编码的方法优于不采用的分组编码的方法。从稳定性和分类效果综合来看, CHIIG_GAKG的效果最好。

综上所述, CHI_IG方法和以它作为特征池的遗传算法特征提取方法在不同的测试环境下分类效果表现最为稳定, 并且总体上比CHI和IG这两种传统的方法表现要好。而相比之下, 采用GAKG方法的表现优于CHI_IG方法。这表明了特征池与不同传统文本特征提取方法的结合能有效提高文本分类在不同环境下分类效果的稳定性, 而加入分组编码的遗传算法则可以进一步提高分类的精度和稳定性, 同时减少特征集合的过拟合程度, 并且提高算法运行效率。

5 结语

从实验数据可以看出, CHI和IG两种特征提取方法在搜狗语料库和复旦语料库的表现大不相同。对于不同特征维度和采用不同的分类方法, 两种传统的特征提取方法的表现各有优劣, 因而无法得出谁优谁劣的结论。因此在实际应用中, 可以将各具优点的传统特征提取方法选出来的特征汇总, 然后采用本文提出的基于优化的遗传算法文本特征提取方法在汇总的候选特征中进行选择, 使得选出的特征集合能综合多种传统方法的优势, 文本分类效果更为稳定。

综合考虑上述实验结果, 在特征维数不多的情况下, 采用分组编码和KNN分类法作为适应度函数时效果最佳。但在特征维数较高的情况下提高效果不明显, 因此这种特征提取方法还有值得改进的地方:

(1) 针对文本分类的评价指标和特征维数来设计遗传算法中的适应度函数, 希望能在特征维数和分类效果之间取得平衡。

(2) 优化特征池中特征的获取方法, 其中一个方向是增加预提取的特征提取方法, 增加候选特征的数量。

(3) 优化候选特征的分组编码方法, 根据特征与特征之间的词义关系来设定分组规则, 使得分组编码更具合理性。

参考文献

View Option

[1]	肖可, 奉国和. 1999-2008年国内文本分类研究文献计量分析[J]. 情报学报, 2010, 29(4): 679-687. (Xiao Ke, Feng Guohe. A Statistical Analysis of Papers on Text Categorization from 1999 to 2008 in China[J]. Journal of the China Society for Scientific and Technical Information, 2010, 29(4): 679-687. ) [本文引用:1] [CJCR: 1.1348]
[2]	Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization[C]. In: Proceedings of the 14th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc. ,1997: 412-420. [本文引用:2]
[3]	苏新宁. 信息检索理论与技术[M]. 北京: 科学技术文献出版社, 2004: 273-307. (Su Xinning. Information Retrieval Theory and Technology[M]. Beijing: Science and Technology Documentation Press, 2004: 273-307. ) [本文引用:1]
[4]	伍建军, 康耀红. 文本分类中特征选择方法的比较和改进[J]. 郑州大学学报: 理学版, 2007, 39(2): 110-113. (Wu Jianjun, Kang Yaohong. Comparison and Improvement of Feature Selection for Text Categorization[J]. Journal of Zhengzhou University: Natural Science Edition, 2007, 39(2): 110-113. ) [本文引用:2] [CJCR: 0.2579]
[5]	符发. 中文文本分类中特征选择方法的比较[J]. 现代计算机(专业版), 2008(6): 43-45. (Fu Fa. Comparison of Feature Selection in Chinese Text Categorization[J]. Modern Computer, 2008(6): 43-45. ) [本文引用:1]
[6]	Raymer M L, Punch W F, Goodman E D, et al. Dimensiona-lity Reduction Using Genetic Algorithms[J]. IEEE Transactions on Evolutionary Computation, 2000, 4(2): 164-171. [本文引用:2] [JCR: 4.81]
[7]	Cantú-Paz E. Feature Subset Selection, Class Separability, and Genetic Algorithms[C]. In: Proceedings of Genetic and Evolutionary Computation-GECCO 2004. Berlin, Heidelberg: Springer, 2004: 959-970. [本文引用:1]
[8]	Rajavarman V N, Rajagopalan S P. Feature Selection in Data-Mining for Genetics Using Genetic Algorithm[J]. Journal of Computer Science, 2007, 3(9): 723-725. [本文引用:1]
[9]	Tan F, Fu X, Zhang Y, et al. A Genetic Algorithm-Based Method for Feature Subset Selection[J]. Soft Computing, 2008, 12(2): 111-120. [本文引用:2] [JCR: 1.124]
[10]	郝占刚, 王正欧. 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学, 2006, 24(1): 104-107. (Hao Zhan’gang, Wang Zheng’ou. The Method of Text Feature Selection Based on LSI and GA[J]. Information Science, 2006, 24(1): 104-107. ) [本文引用:1] [CJCR: 1.112]
[11]	刘亚南. KNN 文本分类中基于遗传算法的特征提取技术研究[D]. 青岛: 中国石油大学, 2011. (Liu Ya’nan. Research of Feature Extraction Technology in KNN Text Classification Based on the Genetic Algorithm[D]. Qingdao: China University of Petroleum, 2011. ) [本文引用:1]
[12]	张志宏, 寇纪淞, 陈富赞, 等. 基于遗传算法的顾客购买行为特征提取[J]. 模式识别与人工智能, 2010, 23(2): 256-266. (Zhang Zhihong, Kou Jisong, Chen Fuzan, et al. Feature Extraction of Customer Purchase Behavior Based on Genetic Algorithm[J]. Pattern Recognition and Artificial Intelligence, 2010, 23(2): 256-266. ) [本文引用:1] [CJCR: 0.7855]
[13]	龙鹏飞, 王莹莹, 段焰. 基于蚁群遗传算法的中文文本分类中的特征提取[J]. 计算机应用与软件, 2008, 25(12): 106-108. (Long Pengfei, Wang Yingying, Duan Yan. Feature Selection in Chinese Text Categorization Based on Ant Colony Algorithm and Genetic Algorithm[J]. Computer Applications and Software, 2008, 25(12): 106-108. ) [本文引用:1] [CJCR: 0.515]
[14]	高贤维, 刘三民, 王杰文. 基于遗传算法和神经网络的特征提取[J]. 计算机与现代化, 2008(4): 23-26. (Gao Xianwei, Liu Sanmin, Wang Jiewen. Feature Extraction Based on Genetic Algorithm and Artificial Neural Network[J]. Computer and Modernization, 2008(4): 23-26. ) [本文引用:1] [CJCR: 0.3579]
[15]	路永和, 曹利朝. 基于粒子群优化的文本特征选择方法[J]. 现代图书情报技术, 2011(1): 76-81. (Lu Yonghe, Cao Lichao. Text Feature Selection Method Based on Particle Swarm Optimization[J]. New Technology of Library and Information Service, 2011(1): 76-81. ) [本文引用:1] [CJCR: 1.073]
[16]	王小平, 曹立明. 遗传算法: 理论, 应用及软件实现[M]. 西安: 西安交通大学出版社, 2002: 55-65. (Wang Xiaoping, Cao Liming. Genetic Algorithm: Theory, Application and Software Implementation[M]. Xi’an: Xi’an Jiaotong University Press, 2002: 55-65. ) [本文引用:2]

2010

0.0

1.1348

. 2010, 29(4):679-687

A Statistical Analysis of Papers on Text Categorization from 1999 to 2008 in China

文本分类作为处理和组织大量文本数据的关键技术,在信息过滤、信息检索、搜索引擎、数字图书馆等领域有着广泛的应用前景.基于文献计量法对1999～2008年间文本分类相关研究论文作了统计分析,按基础理论研究和应用研究两部分分别进行了深入的探讨,前者涉及了文本分类过程中的各种关键技术:文本预处理、文本表示、特征降维、分类算法、效果评估,后者则包括文本分类在各领域的应用研究和文本分类系统的设计与开发.文章深入地揭示了文本分类研究内容、发展历程、研究热点和理论成果,并对未来的研究趋势进行了预测.

... 1 引言文本分类方法主要有贝叶斯、KNN、类中心、支持向量机等^[1], 文本表示一般使用向量空间模型(Vector Space Model, VSM)中的特征向量来表示, 其维数可以达到几万维甚至几十万维 ...

1997

0.0

... 1 文本特征提取方法目前常用的特征提取方法有文档频率(DF)、信息增益(IG)、互信息(MI)、卡方检验(CHI)、期望交叉熵(ECE)和几率比(OR)等^[2] ...

... 对于分类效果而言, 在英文数据集的分类中, CHI与IG效果最佳, DF 效果基本与前两者一致, 而MI则相对较差^[2] ...

2004

0.0

... 特征的文档频率DF是指在训练样本集中出现该特征的样本数^[3] ...

2007

0.0

0.2579

. 2007, 39(2):110-113

Comparison and Improvement of Feature Selection for Text Categorization

考察了文档频率DF、互信息MI、CHI统计、CC统计四种不同的特征选择方法,并结合K近邻算法进行分类精度上的比较.为消除MI对低频词的倚重,提出一种DF与MI结合的特征评价函数,并验证了这种组合特征选择方法的有效性.

... 这几种文本特征提取方法没有绝对的最优, CHI的分类效果好但计算代价较高^[4] ...

... 在中文数据集的分类中, CHI的效果最佳, 其次为IG, 而MI则相对较差^[5], DF的效果居中^[4] ...

0.0

... 在中文数据集的分类中, CHI的效果最佳, 其次为IG, 而MI则相对较差^[5], DF的效果居中^[4] ...

2000

4.81

0.0

... 遗传算法组成部分主要有^[6]: 编码机制、适应度函数、遗传算子(选择、交叉和变异)和控制参数 ...

... 在国外, 密歇根州立大学学者Raymer等利用遗传算法来进行特征降维, 主要思想是通过测量该特征在线性状态和非线性状态下的权重来进行特征的选择^[6] ...

2004

0.0

... -Paz提出了一种基于类间分离性的混合遗传算法来进行特征提取^[7] ...

2007

0.0

... 大学学者Rajavarman和Rajagopalan提出了一种2-Phase Approach的遗传算法, 并将其应用到大量的多因性疾病数据的特征提取上^[8] ...

2008

1.124

0.0

. 2008, 12(2):111-120 DOI:10.1007/s00500-007-0193-8

A Genetic Algorithm-Based Method for Feature Subset Selection

1.Georgia State University Department of Computer Science Atlanta GA 30302 USA<br/>

As a commonly used technique in data preprocessing, feature selection selects a subset of informative attributes or variables to build models describing data. By removing redundant and irrelevant or noise features, feature selection can improve the predictive accuracy and the comprehensibility of the predictors or classifiers. Many feature selection algorithms with different selection criteria has been introduced by researchers. However, it is discovered that no single criterion is best for all applications. In this paper, we propose a framework based on a genetic algorithm (GA) for feature subset selection that combines various existing feature selection methods. The advantages of this approach include the ability to accommodate multiple feature selection criteria and find small subsets of features that perform well for a particular inductive learning algorithm of interest to build the classifier. We conducted experiments using three data sets and three existing feature selection methods. The experimental results demonstrate that our approach is a robust and effective approach to find subsets of features with higher classification accuracy and/or smaller size compared to each individual feature selection algorithm.

... 美国佐治亚州立大学学者Tan等提出了一种改进的数据挖掘的特征提取方法, 结合特征池和遗传算法来进行特征提取^[9] ...

... 2 特征池国外有学者在进行数据挖掘的特征提取时采用多种提取方法, 然后将其提取结果进行整合, 最后得出一个由多种提取方法选择的特征组成的特征池^[9] ...

2006

0.0

1.112

. 2006, 24(1):104-107

The Method of Text Feature Selection Based on LSI and GA

本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取.在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singuk Value Decomposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维.实验结果表明,这两种方法结合可以极大的降低文本向量空间的维数,并能提高分类准确率.

... 在国内, 天津大学学者郝占刚和王正欧提出了采用潜在语义索引进行首次特征降维, 再用遗传算法进行进一步特征降维的方法^[10] ...

2011

0.0

... 中国石油大学学者刘亚南在利用标准的遗传算法进行特征提取的基础上, 提出了一种根据文本特征而设计的适应度函数和交叉规则^[11] ...

2010

0.0

0.7855

. 2010, 23(2):256-266

Feature Extraction of Customer Purchase Behavior Based on Genetic Algorithm

提出一种基于遗传算法的顾客行为特征提取算法.首先,采用Tanimoto相似度来度量顾客间购买行为,并设计遗传聚类算法对顾客群体进行划分,把具有相似购买行为顾客聚集为一类.然后,针对不同顾客群体的购买行为特征,设计一种基于遗传算法的多种群特征提取方法,从各个子群体中发现顾客的购买行为的知识.为了增强种群内部协同进化能力和规则质量,我们采用最近邻替代遗传策略和局部搜索策略.使用实际零售数据集对整个算法进行验证,并与经典的Apriori算法进行比较.实验结果表明该算法在不需要产生频繁项集的情况下,可较高效生成精简规则集,在规则形式方面也更加灵活.最后,对实验结果进行详细分析.

... 天津大学学者张志宏等设计了一种基于遗传算法的多种群特征提取方法并应用到顾客行为特征提取领域, 该方法采用最近邻替代遗传策略和局部搜索策略^[12] ...

2008

0.0

0.515

. 2008, 25(12):106-108

Feature Selection in Chinese Text Categorization Based on Ant Colony Algorithm and Genetic Algorithm

针对文本分类中特征提取准确度的问题,分析了中文文本中词长对于表征文本类别的影响,改进了传统的中文文本词条权重计算方法;由于遗传算法用于特征提取时搜索随机性强,没有方向性,故将蚁群算法应用到遗传算法的选择操作中,提出了一种蚁群算法和遗传算法相结合的特征提取方法.实验结果表明,该方法不但可以提高分类的准确率,而且可以减少分类时间,是一种有效的方法.

... 长沙理工大学学者龙鹏飞等将蚁群算法应用到遗传算法的选择操作中, 提出了一种蚁群算法和遗传算法相结合的特征提取方法^[13] ...

0.0

0.3579

. , 2008(4):23-26

Feature Extraction Based on Genetic Algorithm and Artificial Neural Network

特征提取是模式识别领域的一个重要的研究方向,特征提取可以提高分类的效率与效果.本文将遗传算法与神经网络结合起来运用于特征提取,对在数据中起显著作用的特征进行筛选,除去冗余和次要特征,得到特征子集.通过对UCI机器学习数据库中的sonar数据进行试验,结果表明可以有效地提取出重要的特征.

... 学者高贤维等将遗传算法与神经网络结合起来运用于特征提取, 实验表明可以有效地提取出重要特征^[14] ...

0.0

1.073

. , 2011(1):76-81

Text Feature Selection Method Based on Particle Swarm Optimization

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

From the perspective of the overall impact of text features on the result of text categorization, a text feature selection method based on particle swarm optimization (PSOTFS)is proposed; to mine the text feature selection rules by PSO algorithm. At first, PSOTFS uses CHI to preselect the text features, then uses PSO algorithm to precisely select the text features from the preselected text features. PSOTFS uses a particle to represent a feature selection rule and the set of feature selection rules corresponds with a particle swarm. At the same time, the classification precision is used as the fitness function and grouping is used to reduce the dimensions of the particles. The experiment result shows that the text categorization effectiveness of PSOTFS is better than that of CHI, information gain, document frequency and mutual information.

从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。

... 因为其他智能优化算法的编码步骤与遗传算法有一定的相似性, 所以本文的编码规则参考了采用粒子群算法进行特征提取时的编码方法^[15] ...

2002

0.0

... 9^[16] ...

... 1^[16] ...