Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (4): 48-57     https://doi.org/10.11925/infotech.1003-3513.2014.04.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
遗传算法在改进文本特征提取方法中的应用
路永和, 梁明辉
中山大学资讯管理学院 广州 510006
Improvement of Text Feature Extraction with Genetic Algorithm
Lu Yonghe, Liang Minghui
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF (1336 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 综合分析特征提取方法并对传统特征提取流程和方法进行改进。[方法] 利用特征池进行特征词预选,引入遗传算法对候选特征词分组编码并提取最佳特征向量。[结果] 改进的文本特征提取方法在使用KNN计算适应度值时效果最佳,而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时,分类准确率更加稳定。[局限] 实验语料库质量有待提高;构造特征池时只使用CHI和IG两种特征提取方法;使用分组编码时没考虑词与词之间的语义关系;种群数量和迭代次数受限于计算的复杂性。[结论] 加入特征池进行特征预提取能够提高文本分类准确率的稳定性,而加入遗传算法到文本特征提取中可以提高特征提取的效果,遗传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
梁明辉
路永和
关键词 文本分类特征提取遗传算法特征池    
Abstract

[Objective] To comprehensively analyze many feature extraction methods and improve traditional feature extraction process. [Methods] Firstly, the paper uses feature pool to pre-extract features, then extract best feature set by genetic algorithm and group coding. [Results] When the fitness function uses KNN classification algorithm, the method using in this paper shows the best performance. Besides, the effect is more obvious with less feature dimensions. Simultaneously, the proposed method has better stability in text classification for different feature dimensions and corpuses. [Limitations] The corpus is not abundant enough. Only IG and CHI are used to extract features for feature pool construction. It ignores semantic relationships among words for group coding. The population size and the number of iteration in genetic algorithm are restricted by experimental conditions. [Conclusions] The stability of text classification is improved by adding a feature pool to pre-extract features. The result of text classification is more accurate by adding genetic algorithm in the text feature extraction. To use proposed method reduces overfitting of features and improves efficiency by utilizing group coding in the genetic algorithm.

Key wordsText categorization    Feature extraction    Genetic algorithms    Feature pool
收稿日期: 2013-12-25      出版日期: 2014-05-19
:  G254  
  TP391  
基金资助:

本文系国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(项目编号:71373291)和国家高技术研究发展计划(863计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号:2012AA101701)的研究成果之一。

通讯作者: 路永和 E-mail:zsuluyonghe@163.com     E-mail: zsuluyonghe@163.com
作者简介: 作者贡献声明:路永和:提出研究思路,设计研究方案;最终版本修订; 梁明辉:实验,数据的获取与分析; 路永和,梁明辉:论文起草。
引用本文:   
路永和, 梁明辉. 遗传算法在改进文本特征提取方法中的应用[J]. 现代图书情报技术, 2014, 30(4): 48-57.
Lu Yonghe, Liang Minghui. Improvement of Text Feature Extraction with Genetic Algorithm. New Technology of Library and Information Service, 2014, 30(4): 48-57.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.04.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2014/V30/I4/48

[1] 肖可,奉国和.1999-2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687.(Xiao Ke,Feng Guohe.A Statistical Analysis of Papers on Text Categorization from 1999 to 2008 in China[J].Journal of the China Society for Scientific and Technical Information,2010,29(4):679-687.)
[2] Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].In:Proceedings of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc.,1997:412-420.
[3] 苏新宁.信息检索理论与技术[M].北京:科学技术文献出版社,2004:273-307.(Su Xinning.Information Retrieval Theory and Technology[M].Beijing:Science and Technology Documentation Press,2004:273-307.)
[4] 伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报:理学版,2007,39(2):110-113.(Wu Jianjun,Kang Yaohong.Comparison and Improvement of Feature Selection for Text Categorization[J].Journal of Zhengzhou University:Natural Science Edition,2007,39(2):110-113.)
[5] 符发.中文文本分类中特征选择方法的比较[J].现代计算机(专业版),2008(6):43-45.(Fu Fa.Comparison of Feature Selection in Chinese Text Categorization[J].Modern Computer,2008(6):43-45.)
[6] Raymer M L,Punch W F,Goodman E D,et al.Dimensiona­lity Reduction Using Genetic Algorithms[J].IEEE Transactions on Evolutionary Computation,2000,4(2):164-171.
[7] Cantú-Paz E.Feature Subset Selection,Class Separability,and Genetic Algorithms[C].In:Proceedings of Genetic and Evolutionary Computation-GECCO 2004.Berlin,Heidelberg:Springer,2004:959-970.
[8] Rajavarman V N,Rajagopalan S P.Feature Selection in Data-Mining for Genetics Using Genetic Algorithm[J].Journal of Computer Science,2007,3(9):723-725.
[9] Tan F,Fu X,Zhang Y,et al.A Genetic Algorithm-Based Method for Feature Subset Selection[J].Soft Computing,2008,12(2):111-120.
[10] 郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107.(Hao Zhan'gang,Wang Zheng'ou.The Method of Text Feature Selection Based on LSI and GA[J].Information Science,2006,24(1):104-107.)
[11] 刘亚南.KNN 文本分类中基于遗传算法的特征提取技术研究[D].青岛:中国石油大学,2011.(Liu Ya'nan.Research of Feature Extraction Technology in KNN Text Classification Based on the Genetic Algorithm[D].Qingdao:China University of Petroleum,2011.)
[12] 张志宏,寇纪淞,陈富赞,等.基于遗传算法的顾客购买行为特征提取[J].模式识别与人工智能,2010,23(2):256-266.(Zhang Zhihong,Kou Jisong,Chen Fuzan,et al.Feature Extraction of Customer Purchase Behavior Based on Genetic Algorithm[J].Pattern Recognition and Artificial Intelligence,2010,23(2):256-266.)
[13] 龙鹏飞,王莹莹,段焰.基于蚁群遗传算法的中文文本分类中的特征提取[J].计算机应用与软件,2008,25(12):106-108.(Long Pengfei,Wang Yingying,Duan Yan.Feature Selection in Chinese Text Categorization Based on Ant Colony Algorithm and Genetic Algorithm[J].Computer Applications and Software,2008,25(12):106-108.)
[14] 高贤维,刘三民,王杰文.基于遗传算法和神经网络的特征提取[J].计算机与现代化,2008(4):23-26.(Gao Xianwei,Liu Sanmin,Wang Jiewen.Feature Extraction Based on Genetic Algorithm and Artificial Neural Network[J].Computer and Modernization,2008(4):23-26.)
[15] 路永和,曹利朝.基于粒子群优化的文本特征选择方法[J].现代图书情报技术,2011(1):76-81.(Lu Yonghe,Cao Lichao.Text Feature Selection Method Based on Particle Swarm Optimization[J].New Technology of Library and Information Service,2011(1):76-81.)
[16] 王小平,曹立明.遗传算法:理论,应用及软件实现[M].西安:西安交通大学出版社,2002:55-65.(Wang Xiaoping,Cao Liming.Genetic Algorithm:Theory,Application and Software Implementation[M].Xi'an:Xi'an Jiaotong University Press,2002:55-65.)

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 郑新曼, 董瑜. 基于科技政策文本的程度词典构建研究*[J]. 数据分析与知识发现, 2021, 5(10): 81-93.
[5] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[8] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[9] 蔡婧璇,吴江,王诚坤. 基于深度学习的众测报告有用性预测研究*[J]. 数据分析与知识发现, 2020, 4(11): 102-111.
[10] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[11] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[12] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[13] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[14] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[15] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn