Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (4): 48-57    DOI: 10.11925/infotech.1003-3513.2014.04.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
遗传算法在改进文本特征提取方法中的应用
路永和, 梁明辉
中山大学资讯管理学院 广州 510006
Improvement of Text Feature Extraction with Genetic Algorithm
Lu Yonghe, Liang Minghui
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF(1336 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 综合分析特征提取方法并对传统特征提取流程和方法进行改进。[方法] 利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。[结果] 改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。[局限] 实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。[结论] 加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
梁明辉
路永和
关键词 文本分类特征提取遗传算法特征池    
Abstract

[Objective] To comprehensively analyze many feature extraction methods and improve traditional feature extraction process. [Methods] Firstly, the paper uses feature pool to pre-extract features, then extract best feature set by genetic algorithm and group coding. [Results] When the fitness function uses KNN classification algorithm, the method using in this paper shows the best performance. Besides, the effect is more obvious with less feature dimensions. Simultaneously, the proposed method has better stability in text classification for different feature dimensions and corpuses. [Limitations] The corpus is not abundant enough. Only IG and CHI are used to extract features for feature pool construction. It ignores semantic relationships among words for group coding. The population size and the number of iteration in genetic algorithm are restricted by experimental conditions. [Conclusions] The stability of text classification is improved by adding a feature pool to pre-extract features. The result of text classification is more accurate by adding genetic algorithm in the text feature extraction. To use proposed method reduces overfitting of features and improves efficiency by utilizing group coding in the genetic algorithm.

Key wordsText categorization    Feature extraction    Genetic algorithms    Feature pool
收稿日期: 2013-12-25     
:  G254  
  TP391  
基金资助:

本文系国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(项目编号:71373291)和国家高技术研究发展计划(863计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号:2012AA101701)的研究成果之一。

通讯作者: 路永和 E-mail:zsuluyonghe@163.com     E-mail: zsuluyonghe@163.com
作者简介: 作者贡献声明:路永和:提出研究思路,设计研究方案;最终版本修订; 梁明辉:实验,数据的获取与分析; 路永和,梁明辉:论文起草。
引用本文:   
路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014, 30(4): 48-57.
Lu Yonghe, Liang Minghui. Improvement of Text Feature Extraction with Genetic Algorithm. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.04.08.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.04.08

[1] 肖可,奉国和.1999-2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687.(Xiao Ke,Feng Guohe.A Statistical Analysis of Papers on Text Categorization from 1999 to 2008 in China[J].Journal of the China Society for Scientific and Technical Information,2010,29(4):679-687.)
[2] Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].In:Proceedings of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc.,1997:412-420.
[3] 苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004:273-307.(Su Xinning.Information Retrieval Theory and Technology[M].Beijing:Science and Technology Documentation Press,2004:273-307.)
[4] 伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报:理学版,2007,39(2):110-113.(Wu Jianjun,Kang Yaohong.Comparison and Improvement of Feature Selection for Text Categorization[J].Journal of Zhengzhou University:Natural Science Edition,2007,39(2):110-113.)
[5] 符发.中文文本分类中特征选择方法的比较[J].现代计算机(专业版),2008(6):43-45.(Fu Fa.Comparison of Feature Selection in Chinese Text Categorization[J].Modern Computer,2008(6):43-45.)
[6] Raymer M L,Punch W F,Goodman E D,et al.Dimensiona­lity Reduction Using Genetic Algorithms[J].IEEE Transactions on Evolutionary Computation,2000,4(2):164-171.
[7] Cantú-Paz E.Feature Subset Selection,Class Separability,and Genetic Algorithms[C].In:Proceedings of Genetic and Evolutionary Computation-GECCO 2004.Berlin,Heidelberg:Springer,2004:959-970.
[8] Rajavarman V N,Rajagopalan S P.Feature Selection in Data-Mining for Genetics Using Genetic Algorithm[J].Journal of Computer Science,2007,3(9):723-725.
[9] Tan F,Fu X,Zhang Y,et al.A Genetic Algorithm-Based Method for Feature Subset Selection[J].Soft Computing,2008,12(2):111-120.
[10] 郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107.(Hao Zhan'gang,Wang Zheng'ou.The Method of Text Feature Selection Based on LSI and GA[J].Information Science,2006,24(1):104-107.)
[11] 刘亚南.KNN 文本分类中基于遗传算法的特征提取技术研究[D].青岛:中国石油大学,2011.(Liu Ya'nan.Research of Feature Extraction Technology in KNN Text Classification Based on the Genetic Algorithm[D].Qingdao:China University of Petroleum,2011.)
[12] 张志宏,寇纪淞,陈富赞,等.基于遗传算法的顾客购买行为特征提取[J].模式识别与人工智能,2010,23(2):256-266.(Zhang Zhihong,Kou Jisong,Chen Fuzan,et al.Feature Extraction of Customer Purchase Behavior Based on Genetic Algorithm[J].Pattern Recognition and Artificial Intelligence,2010,23(2):256-266.)
[13] 龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108.(Long Pengfei,Wang Yingying,Duan Yan.Feature Selection in Chinese Text Categorization Based on Ant Colony Algorithm and Genetic Algorithm[J].Computer Applications and Software,2008,25(12):106-108.)
[14] 高贤维,刘三民,王杰文.基于遗传算法和神经网络的特征提取[J].计算机与现代化,2008(4):23-26.(Gao Xianwei,Liu Sanmin,Wang Jiewen.Feature Extraction Based on Genetic Algorithm and Artificial Neural Network[J].Computer and Modernization,2008(4):23-26.)
[15] 路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(1):76-81.(Lu Yonghe,Cao Lichao.Text Feature Selection Method Based on Particle Swarm Optimization[J].New Technology of Library and Information Service,2011(1):76-81.)
[16] 王小平,曹立明.遗传算法:理论,应用及软件实现[M].西安:西安交通大学出版社,2002:55-65.(Wang Xiaoping,Cao Liming.Genetic Algorithm:Theory,Application and Software Implementation[M].Xi'an:Xi'an Jiaotong University Press,2002:55-65.)

[1] 文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 *[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[2] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[3] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[4] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[5] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[6] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[7] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[8] 刘浏,王东波. 基于论文自动分类的社科类学科跨学科性研究*[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[9] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[10] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[11] 李伟卿,王伟军. 基于大规模评论数据的产品特征词典构建方法研究*[J]. 数据分析与知识发现, 2018, 2(1): 41-50.
[12] 李昌兵,庞崇鹏,李美平. 基于权重的Apriori算法在文本统计特征提取方法中的应用*[J]. 数据分析与知识发现, 2017, 1(9): 83-89.
[13] 闫晶,毕强,李洁,王福. 图书馆数字资源聚合质量预测模型构建*——基于改进遗传算法和BP神经网络[J]. 数据分析与知识发现, 2017, 1(12): 49-62.
[14] 李湘东,阮涛,刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
[15] 路永和,陈景煌. 混合蛙跳算法在文本分类特征选择优化中的应用*[J]. 数据分析与知识发现, 2017, 1(1): 91-101.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn