Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (9): 66-73    DOI: 10.11925/infotech.1003-3513.2014.09.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种基于类平均相似度的文本分类算法
谭学清, 周通, 罗琳
武汉大学信息管理学院 武汉 430072
A Text Classification Algorithm Based on the Average Category Similarity
Tan Xueqing, Zhou Tong, Luo Lin
School of Information Management, Wuhan University, Wuhan 430072, China
全文: PDF(518 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 在KNN 算法基础上,提高文本分类的分类性能和分类速度。[方法] 提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。[结果] 实验表明,本文方法在复旦、Sogou 平衡、非平衡语料上的 Macro_F1 比KNN 分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN 算法的1/22、1/6 和1/5。[局限] 考虑到KNN 算法的时间效率,实验数据的文本数较少。[结论] 相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谭学清
罗琳
周通
关键词 类平均相似度向量空间模型KNN文本分类特征选择    
Abstract

[Objective] To improve the classification performance and classification speed based on the KNN algorithm. [Methods] This paper proposes a classification algorithm based on the average category similarity, to judge the type of the test text by calculating the mean value of the text similarities of the test text and all texts of each category in the training set. [Results] The experimental results on the Fudan, balanced Sogou and unbalanced Sogou public corpus show that compared with KNN classification algorithm, the Macro_F1 on the two corpora of the method in this paper is increased by 3.5%, 3.2% and 3.3% respectively, the classification speed is 1/22, 1/6 and 1/5 respectively of KNN algorithm. [Limitations] Considering the time efficiency of KNN algorithm, the number of text of the experimental data is few. [Conclusions] It is a kind of practical classification algorithm for large scale text classification contrast with KNN.

Key wordsAverage category similarity    Vector Space Model(VSM)    KNN    Text categorization    Feature selection
收稿日期: 2014-03-10     
:  TP391  
基金资助:

本文系国家社会科学基金项目“数字图书馆标签系统的语义挖掘研究”(项目编号:12CTQ003)的研究成果之一。

通讯作者: 周通 E-mail:as167016@126.com     E-mail: as167016@126.com
作者简介: 作者贡献声明:谭学清:提出研究思路,设计研究方案;罗琳:采集和分析实验所需真实数据;周通:进行实验,论文起草,初稿撰写;谭学清,罗琳:论文审阅和最终版本修订。
引用本文:   
谭学清, 周通, 罗琳. 一种基于类平均相似度的文本分类算法[J]. 现代图书情报技术, 2014, 30(9): 66-73.
Tan Xueqing, Zhou Tong, Luo Lin. A Text Classification Algorithm Based on the Average Category Similarity. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.09.09.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.09.09

[1] Cover T M, Hart P E.Nearest Neighbor Pattern Classification [J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.
[2] Lewis D D. Naive (Bayes) at Forty: the Independence Assumption Information Retrieval [C]. In: Proceedings of the 10th European Conference on Machine Learning (ECML'98), Chemnitz, Germany. London: Springer-Verlag, 1998: 4-15.
[3] Vapnik V N. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995: 235-313.
[4] 郑凤萍. 一种新的中文文本分类算法[J]. 现代情报, 2007, 27(3): 143-144. (Zheng Fengping. A New Kind of Chinese Text Classification Algorithm [J]. Journal of Modern Information, 2007, 27(3): 143-144.)
[5] 王建会, 王洪伟, 申展, 等. 一种实用高效的文本分类算法[J]. 计算机研究与发展, 2005, 42(1): 85-93. (Wang Jianhui, Wang Hongwei, Shen Zhan, et al. A Simple and Efficient Algorithm to Classify a Large Scale of Texts [J]. Journal of Computer Research and Development, 2005, 42(1): 85-93.)
[6] 朱靖波, 姚天顺. 基于FIFA 算法的文本分类[J]. 中文信息学报, 2002, 16(3): 20-26. (Zhu Jingbo, Yao Tianshun. FIFA-based Text Classification [J]. Journal of Chinese Information Processing, 2002, 16(3): 20-26.)
[7] Yigit H. A Weighting Approach for KNN Classifier[C]. In: Proceedings of 2013 International Conference on Electronics, Computer and Computation (ICECCO). IEEE, 2013: 228-231.
[8] Mejdoub M, Amar C B. Classification Improvement of Local Feature Vectors over the KNN Algorithm [J]. Multimedia Tools and Applications, 2013, 64(1): 197-218.
[9] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[10] Salton G, Yu C T. On the Construction of Effective Vocabu-laries for Information Retrieval [C]. In: Proceedings of the Meeting on Programming Languages and Information Retrieval (SIGPLAN'73). New York: ACM, 1973: 48-60.
[11] 沈竞. 基于信息增益的LDA模型的短文本分类[J]. 重庆文理学院学报: 自然科学版, 2011, 30(6): 64-66. (Shen Jing. The Classification of LDA Model Essay Based on Information Gain [J]. Journal of Chongqing University of Arts and Sciences:Natural Science Edition, 2011, 30(6): 64-66.)
[12] 裴英博, 刘晓霞. 文本分类中改进型CHI特征选择方法的研究[J]. 计算机工程与应用, 2011, 47(4): 128-130, 194. (Pei Yingbo, Liu Xiaoxia. Study on Improved CHI for Feature Selection in Chinese Text Categorization [J]. Computer Engineering and Applications, 2011, 47(4): 128-130, 194.)
[13] 黄志艳. 一种基于信息增益的特征选择方法[J]. 山东农业大学学报: 自然科学版, 2013, 44(2): 252-256. (Huang Zhiyan. Based on the Information Gain Text Feature Selection Method [J]. Journal of Shandong Agricultural University: Natural Science, 2013, 44(2): 252-256.)
[14] 徐峻岭, 周毓明, 陈林, 等. 基于互信息的无监督特征选择[J]. 计算机研究与发展, 2012, 49(2): 372-382. (Xu Junling, Zhou Yuming, Chen Lin, et al. An Unsupervised Feature Selection Approach Based on Mutual Information [J]. Journal of Computer Research and Development, 2012, 49(2): 372-382.)
[15] 田野, 南征, 郑伟, 等. 中文文本分类中特征选择方法的改进与比较[J]. 河北北方学院学报: 自然科学版, 2012, 28(6): 33-35. (Tian Ye, Nan Zheng, Zheng Wei, et al. Improvement and Comparison of Feature Selection Methods for Chinese Text Categorization [J]. Journal of Hebei North University: Natural Science Edition, 2012, 28(6): 33-35.)
[16] 司宪策. 基于内容的社会标签推荐与分析研究[D]. 北京: 清华大学, 2010. (Si Xiance. Content-based Recommendation and Analysis of Social Tags [D]. Beijing: Tsinghua University, 2010.)
[17] 奉国和. 文本分类性能评价研究[J]. 情报杂志, 2011, 30(8): 66-70. (Feng Guohe. Review of Performance Evaluation of Text Classification [J]. Journal of Intelligence, 2011, 30(8): 66-70.)

[1] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[2] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[3] 陈万成,戴浩然,金映含. 基于数据挖掘方法的HEDONIC房屋价格评估模型——以美国城市西雅图为例[J]. 数据分析与知识发现, 2019, 3(5): 19-26.
[4] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[5] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[6] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[7] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[8] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[9] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[10] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[11] 刘浏,王东波. 基于论文自动分类的社科类学科跨学科性研究*[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[12] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[13] 操玮,李灿,贺婷婷,朱卫东. 基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究*[J]. 数据分析与知识发现, 2018, 2(10): 65-76.
[14] 李志鹏,李卫忠. 基于可拓小生境量子粒子群算法的特征选择*[J]. 数据分析与知识发现, 2017, 1(7): 82-89.
[15] 白如江,冷伏海,廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn