Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (7/8): 76-81     https://doi.org/10.11925/infotech.1003-3513.2011.07-08.13
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于粒子群优化的文本特征选择方法
路永和, 曹利朝
中山大学资讯管理学院 广州 510006
Text Feature Selection Method Based on Particle Swarm Optimization
Lu Yonghe, Cao Lichao
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF (572 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
路永和
曹利朝
关键词 文本分类特征选择文本特征粒子群优化开方检验    
Abstract:From the perspective of the overall impact of text features on the result of text categorization, a text feature selection method based on particle swarm optimization (PSOTFS)is proposed; to mine the text feature selection rules by PSO algorithm. At first, PSOTFS uses CHI to preselect the text features, then uses PSO algorithm to precisely select the text features from the preselected text features. PSOTFS uses a particle to represent a feature selection rule and the set of feature selection rules corresponds with a particle swarm. At the same time, the classification precision is used as the fitness function and grouping is used to reduce the dimensions of the particles. The experiment result shows that the text categorization effectiveness of PSOTFS is better than that of CHI, information gain, document frequency and mutual information.
Key wordsText categorization    Feature selection    Text feature    Particle swarm optimization    CHI
收稿日期: 2011-05-04      出版日期: 2011-10-09
: 

TP391

 
引用本文:   
路永和, 曹利朝. 基于粒子群优化的文本特征选择方法[J]. 现代图书情报技术, 2011, 27(7/8): 76-81.
Lu Yonghe, Cao Lichao. Text Feature Selection Method Based on Particle Swarm Optimization. New Technology of Library and Information Service, 2011, 27(7/8): 76-81.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.07-08.13      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I7/8/76
[1] 肖可,奉国和. 1999-2008年国内文本分类研究文献计量分析[J]. 情报学报, 2010,29(4):679-687.

[2] Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization . In: Proceedings of the 14th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 1997:412-420.

[3] 苏新宁. 信息检索理论与技术[M]. 北京:科学技术文献出版社,2004:273-307.

[4] 伍建军,康耀红. 文本分类中特征选择方法的比较和改进[J]. 郑州大学学报:理学版, 2007,39(2):110-113.

[5] 符发. 中文文本分类中特征选择方法的比较[J]. 现代计算机:专业版, 2008(6):43-45.

[6] 李凯齐,刁兴春,曹建军,等. 基于改进蚁群算法的高精度文本特征选择方法[J]. 解放军理工大学学报:自然科学版, 2010,11(6):634-639.

[7] Kennedy J, Eberhart R. Particle Swarm Optimization . In: Proceedings of IEEE International Conference on Neural Networks. Piscataway:IEEE Service Center, 1995:1942-1948.

[8] 谢晓锋,张文俊,杨之廉. 微粒群算法综述[J]. 控制与决策, 2003,18(2):129-134.

[9] Lin S W, Chen S C. PSOLDA: A Particle Swarm Optimization Approach for Enhancing Classification Accuracy Rate of Linear Discriminant Analysis[J]. Applied Soft Computing, 2009, 9(3):1008-1015.

[10] 张国英,沙芸,江慧娜. 基于粒子群优化的快速KNN分类算法[J]. 山东大学学报:理学版, 2006,41(3):34-36.

[11] 林令娟,刘希玉. 基于微粒群优化的快速K-近邻分类算法[J]. 山东科学, 2009,22(1):13-16.

[12] 李欢,焦建民. 简化的粒子群优化快速KNN分类算法[J]. 计算机工程与应用, 2008,44(32):57-59.

[13] 唐朝霞. 基于PSO和KNN的网页智能分类算法[J]. 太原师范学院学报:自然科学版, 2010,9(4):55-58.

[14] 任江涛,卓晓岚,许盛灿,等. 基于PSO面向K近邻分类的特征权重学习算法[J]. 计算机科学, 2007,34(5):187-189.

[15] 拓守恒. 基于改进PSO的SVM文本分类研究[J]. 电脑开发与应用, 2010,23(10):3-5,8.

[16] 王东,吴湘滨. 利用粒子群算法优化SVM分类器的超参数[J]. 计算机应用, 2008,28(1):134-135,139.

[17] 孙洋. 粒子群算法的改进及其在文本分类上的应用[J]. 中央民族大学学报:自然科学版, 2008,17(3):57-62.

[18] 罗新. 基于群集智能的文本分类研究 . 广州:中山大学,2009.

[19] 童亚拉,陈益. 一种基于混沌粒子群算法的网页分类规则抽取方法[J]. 微电子学与计算机, 2009,26(2):193-196.

[20] 谭德坤. 基于混沌微粒群算法的文本分类研究[J]. 计算机应用研究, 2010,27(12):4464-4466.

[21] 朱颢东,钟勇. 基于并行二进制免疫量子粒子群优化的特征选择方法[J]. 控制与决策, 2010,25(1):53-58,63.

[22] Zahran B M, Kanaan G. Text Feature Selection Using Particle Swarm Optimization Algorithm[J]. World Applied Sciences Journal, 2009(7):69-74.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[5] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[8] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[9] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[10] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[11] 黄漫宇,云琪,彭虎锋,窦雪萌. 基于主题挖掘的超额募资农产品众筹项目文本特征研究 *——以众筹网为例[J]. 数据分析与知识发现, 2019, 3(9): 124-134.
[12] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[13] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[14] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[15] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn