Please wait a minute...
Advanced Search
现代图书情报技术  2004, Vol. 20 Issue (7): 27-29     https://doi.org/10.11925/infotech.1003-3513.2004.07.06
  图书馆自动化 本期目录 | 过刊浏览 | 高级检索 |
基于支持向量机的文本自动分类试验研究
施洁斌
(浙江大学图书馆  杭州 310029)
Study on Automatic Text Categorization with Support Vector Machine
Shi Jiebin
(Zhejiang University Library, Hangzhou 310029, China)
全文: PDF (0 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 文本自动分类支持向量机K-最邻近法特征选择    
Abstract

A new machine learning method of Support Vector Machine (SVM), is applied in automatic text categorization. Comparing with the result achieved by k-nearest neighbor algorithm, the accuracy achieved by support vector machine is better; The effect of feature selection methods is smaller to SVM than the KNN method. The SVM is a potential and competitive method for automatic text categorization. The feature selection methods also affectes the accuracy of text categorization.

Key wordsAutomatic text categorization    Support vector machine    K-nearest neighbor algorithm    Feature selection
收稿日期: 2004-02-23      出版日期: 2004-07-25
ZTFLH: 

G254.361

 
通讯作者: 施洁斌     E-mail: jbshi@lib.zju.edu.cn
作者简介: 施洁斌
引用本文:   
施洁斌. 基于支持向量机的文本自动分类试验研究[J]. 现代图书情报技术, 2004, 20(7): 27-29.
Shi Jiebin. Study on Automatic Text Categorization with Support Vector Machine. New Technology of Library and Information Service, 2004, 20(7): 27-29.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2004.07.06      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2004/V20/I7/27

1史忠植.知识发现.北京:清华大学出版社,2002:334-363
2王梦云等.基于字频向量的中文文本自动分类系统.情报学报,2000,19(6):644-649
3李勇等.网络文本数据分类技术与实现算法.情报学报,2002,21(1):21-26
4庞剑锋等.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究,2001(9):23-26
5柳回春等.支持向量机的研究现状.中国图象图形学报,2002,7A(6):618-623
6萧嵘等.支持向量机理论综述.计算机科学,2000,27(3):1-3
7Vapnik, V., Statistical Learning Theory, New York, NY: Wiley, 1998
8陆玉昌等.向量空间法中单词权重函数的分析和构造.计算机研究与发展,2002,39(10):1205-1210
9李凡等.关于文本特征抽取新方法的研究.清华大学学报(自然科学版),2001,41(7):98-101
10朱明等.Web网页设别中的特征选择问题研究.计算机工程,2000,26(8):35-37
11李蓉等.SVM-KNN分类器——一种提高SVM分类精度的新方法,电子学报,2002,30(5):745-748
12Chang, C. et al, The analysis of decomposition methods for support vector machines, IEEE Transactions on Neural Networks,2000, 11 (4): 1003-1008
13孙健等.基于K-最近距离的自动文本分类研究.北京邮电大学学报,2001,24(1):42-46

[1] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[2] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[3] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[4] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[5] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[6] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[7] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[8] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[9] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[10] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[11] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[12] 丁良萍,张智雄,刘欢. 影响支持向量机模型语步自动识别效果的因素研究 *[J]. 数据分析与知识发现, 2019, 3(11): 16-23.
[13] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[14] 温廷新, 李洋子, 孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[15] 侯君, 刘魁, 李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn