Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (4): 72-76     https://doi.org/10.11925/infotech.1003-3513.2010.04.12
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
一种基于类别信息的文本自动分类模型
刘海峰,刘守生,张学仁,苏展
(中国人民解放军理工大学理学院南京 210007)
A Model of Text Categorization Automatically Based on Category
 Liu  Hai-Feng, Liu  Shou-Sheng, Zhang  Hua-Ren, Su  Zhan
(Institute of Sciences, Peoples Liberation Army University of Science and Technology, Nanjing 210007,China)
全文: PDF (344 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘海峰
刘守生
张学仁
苏展
关键词 文本分类  特征选择  类别空间模型  特征降维    
Abstract

Firstly, the defects of method based on mutual information in the feature selection are analyzed theoretically,then an improved method is put forward. According to the problems of vector space model, the authors use a class space model to express text and take advantage of  the category information. In this way, the paper realizes an algorithm of text categorization based on category,and the result based on the Chinese text categorization shows that this method has a better precision in the text categorization.

Key wordsText categorization      Feature selection      Class space model      Feature reduction
收稿日期: 2010-03-08      出版日期: 2010-04-25
: 

TP391

 
通讯作者: 刘海峰     E-mail: liuhaifeng19620717@sina.com
引用本文:   
刘海峰 刘守生 张学仁 苏展. 一种基于类别信息的文本自动分类模型[J]. 现代图书情报技术, 2010, 26(4): 72-76.
Liu Hai-Feng, Liu Shou-Sheng, Zhang Hua-Ren, Su Zhan. A Model of Text Categorization Automatically Based on Category. New Technology of Library and Information Service, 2010, 26(4): 72-76.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.04.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I4/72

[1] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859.
[2] De Villiers G, Linford Vogt P, De Wit P. Business Logistics Management[M].Oxford University Press,2002.
[3] Shang W Q, Huang H K, Zhu H B, et al. A Novel Feature Selection Algorithm for Text Categorization[J].Expert Systems with Applications,2007,33(1):1-5.
[4] Salton G,Buckley C. Term-weighting Approaches in Automatic Retrieval[J].Information Processing & Management,1988,24(5):513-523.
[5] Liu H, Yu L. Toward Integrating Feature Selection Algorithms for Classification and Clustering [J].IEEE Transactions on Knowledge and Data Engineering, 2005, 17(5):491-502.
[6] Yang S, Gu J. Feature Selection Based on Mutual Information and Redundancy-synergy Coefficient[J].Journal of Zhejiang University Science A,2004,5(11):1382-1391.
[7] Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[EB/OL].[2010-01-23].http://citeseer.ist.psu.edu/yang97comparative.html.
[8] 秦进,陈笑蓉,汪维家,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46.
[9] 黄冉,郭嵩山.基于类别空间模型的文本分类系统的设计与实现[J].计算机应用研究,2005,22(8):60-63.
[10] Han J W,Kamber M.Data Mining:Concepts and Technologies [M].San Francisco:Morgan Kaufmann Publishers,2001.

[1] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[2] 刘冰瑶, 马静, 李晓峰. 一种“特征降维”文本复杂网络的话题表示模型*[J]. 数据分析与知识发现, 2017, 1(11): 53-61.
[3] 邢美凤. 科技文献关键词冗余解决方案研究[J]. 现代图书情报技术, 2012, 28(1): 34-39.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn