Please wait a minute...
Advanced Search
现代图书情报技术  2004, Vol. 20 Issue (7): 27-29     https://doi.org/10.11925/infotech.1003-3513.2004.07.06
  图书馆自动化 本期目录 | 过刊浏览 | 高级检索 |
基于支持向量机的文本自动分类试验研究
施洁斌
(浙江大学图书馆  杭州 310029)
Study on Automatic Text Categorization with Support Vector Machine
Shi Jiebin
(Zhejiang University Library, Hangzhou 310029, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 文本自动分类支持向量机K-最邻近法特征选择    
Abstract

A new machine learning method of Support Vector Machine (SVM), is applied in automatic text categorization. Comparing with the result achieved by k-nearest neighbor algorithm, the accuracy achieved by support vector machine is better; The effect of feature selection methods is smaller to SVM than the KNN method. The SVM is a potential and competitive method for automatic text categorization. The feature selection methods also affectes the accuracy of text categorization.

Key wordsAutomatic text categorization    Support vector machine    K-nearest neighbor algorithm    Feature selection
收稿日期: 2004-02-23      出版日期: 2004-07-25
: 

G254.361

 
通讯作者: 施洁斌     E-mail: jbshi@lib.zju.edu.cn
作者简介: 施洁斌
引用本文:   
施洁斌. 基于支持向量机的文本自动分类试验研究[J]. 现代图书情报技术, 2004, 20(7): 27-29.
Shi Jiebin. Study on Automatic Text Categorization with Support Vector Machine. New Technology of Library and Information Service, 2004, 20(7): 27-29.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2004.07.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2004/V20/I7/27

1史忠植.知识发现.北京:清华大学出版社,2002:334-363
2王梦云等.基于字频向量的中文文本自动分类系统.情报学报,2000,19(6):644-649
3李勇等.网络文本数据分类技术与实现算法.情报学报,2002,21(1):21-26
4庞剑锋等.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究,2001(9):23-26
5柳回春等.支持向量机的研究现状.中国图象图形学报,2002,7A(6):618-623
6萧嵘等.支持向量机理论综述.计算机科学,2000,27(3):1-3
7Vapnik, V., Statistical Learning Theory, New York, NY: Wiley, 1998
8陆玉昌等.向量空间法中单词权重函数的分析和构造.计算机研究与发展,2002,39(10):1205-1210
9李凡等.关于文本特征抽取新方法的研究.清华大学学报(自然科学版),2001,41(7):98-101
10朱明等.Web网页设别中的特征选择问题研究.计算机工程,2000,26(8):35-37
11李蓉等.SVM-KNN分类器——一种提高SVM分类精度的新方法,电子学报,2002,30(5):745-748
12Chang, C. et al, The analysis of decomposition methods for support vector machines, IEEE Transactions on Neural Networks,2000, 11 (4): 1003-1008
13孙健等.基于K-最近距离的自动文本分类研究.北京邮电大学学报,2001,24(1):42-46

[1] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[2] 沈旺, 李世钰, 刘嘉宇, 李贺. 问答社区回答质量评价体系优化方法研究 *[J]. 数据分析与知识发现, 2021, 5(2): 83-93.
[3] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[4] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[5] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[6] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[7] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[8] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[9] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[10] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[11] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[12] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[13] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[14] 张智雄,刘欢,丁良萍,吴朋民,于改红. 不同深度学习模型的科技论文摘要语步识别效果对比研究 *[J]. 数据分析与知识发现, 2019, 3(12): 1-9.
[15] 丁良萍,张智雄,刘欢. 影响支持向量机模型语步自动识别效果的因素研究 *[J]. 数据分析与知识发现, 2019, 3(11): 16-23.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn