Please wait a minute...
Advanced Search
现代图书情报技术  2005, Vol. 21 Issue (10): 23-27     https://doi.org/10.11925/infotech.1003-3513.2005.10.06
  图书馆自动化 本期目录 | 过刊浏览 | 高级检索 |
基于机器学习的自动文本分类模型研究
陈立孚  周宁  李丹
(武汉大学信息管理学院 武汉 430072)
Study on Machine Learning Based Automatic  Text Categorization Model
Chen Lifu   Zhou Ning   Li Dan
(Information Management School, Wuhan University, Wuhan 430072, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 文本分类机器学习支持向量机    
Abstract

This article develops a theoretical model of machine learning based automatic text categorization, which is widely used in text categorization tasks. First, definition and architecture model of text categorization are given. Then, we choose SVM classifier as a typical example for detail analysis. Finally, a performance result is reported by the author through a Chinese text categorization experiment.

Key wordsText categorization    Machine learning    Support vector machine
收稿日期: 2005-06-20      出版日期: 2005-10-25
: 

TP391

 
通讯作者: 陈立孚     E-mail: chinatoby@sina.com
作者简介: 陈立孚,周宁,李丹
引用本文:   
陈立孚,周宁,李丹. 基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005, 21(10): 23-27.
Chen Lifu,Zhou Ning,Li Dan. Study on Machine Learning Based Automatic  Text Categorization Model. New Technology of Library and Information Service, 2005, 21(10): 23-27.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2005.10.06      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2005/V21/I10/23

1Fabrizio Sebastiani: Machine Learning in Automated Text Categorization, ACM Computing Surveys, Vol.34, No.1, 2002
2Kjersti Aas and Line Eikvil: Text Categorisation: A Survey, Technical Report #941, Norwegian Computing Center, 1999
3Yiming Yang and Jan O. Pedersen: A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning (ICML'97), 1997
4Yiming Yang and Xin Liu: A re-examination of text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999
5Thorsten Joachims: A Statistical Learning Model of Text Classification for Support Vector Machines, SIGIR '01, 2001
6Yiming Yang: An evaluation of statistical approaches to text categorization, Journal of Information Retrieval, Vol 1, 1999
7Yan-Shi Dong, Ke-Song Han: A Comparison of Several Ensemble Methods for Text Categorization, Proceedings of the 2004 IEEE International Conference on Service Computing (SCC'04), 2004

[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[3] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[4] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[5] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[6] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[7] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[8] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[9] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[10] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[11] 沈旺, 李世钰, 刘嘉宇, 李贺. 问答社区回答质量评价体系优化方法研究 *[J]. 数据分析与知识发现, 2021, 5(2): 83-93.
[12] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[13] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[14] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[15] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn