Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (9): 66-73     https://doi.org/10.11925/infotech.1003-3513.2014.09.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
一种基于类平均相似度的文本分类算法
谭学清, 周通, 罗琳
武汉大学信息管理学院 武汉 430072
A Text Classification Algorithm Based on the Average Category Similarity
Tan Xueqing, Zhou Tong, Luo Lin
School of Information Management, Wuhan University, Wuhan 430072, China
全文: PDF (518 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 在KNN 算法基础上,提高文本分类的分类性能和分类速度。[方法] 提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。[结果] 实验表明,本文方法在复旦、Sogou 平衡、非平衡语料上的 Macro_F1 比KNN 分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN 算法的1/22、1/6 和1/5。[局限] 考虑到KNN 算法的时间效率,实验数据的文本数较少。[结论] 相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谭学清
罗琳
周通
关键词 类平均相似度向量空间模型KNN文本分类特征选择    
Abstract

[Objective] To improve the classification performance and classification speed based on the KNN algorithm. [Methods] This paper proposes a classification algorithm based on the average category similarity, to judge the type of the test text by calculating the mean value of the text similarities of the test text and all texts of each category in the training set. [Results] The experimental results on the Fudan, balanced Sogou and unbalanced Sogou public corpus show that compared with KNN classification algorithm, the Macro_F1 on the two corpora of the method in this paper is increased by 3.5%, 3.2% and 3.3% respectively, the classification speed is 1/22, 1/6 and 1/5 respectively of KNN algorithm. [Limitations] Considering the time efficiency of KNN algorithm, the number of text of the experimental data is few. [Conclusions] It is a kind of practical classification algorithm for large scale text classification contrast with KNN.

Key wordsAverage category similarity    Vector Space Model(VSM)    KNN    Text categorization    Feature selection
收稿日期: 2014-03-10      出版日期: 2014-10-20
:  TP391  
基金资助:

本文系国家社会科学基金项目“数字图书馆标签系统的语义挖掘研究”(项目编号:12CTQ003)的研究成果之一。

通讯作者: 周通 E-mail:as167016@126.com     E-mail: as167016@126.com
作者简介: 作者贡献声明:谭学清:提出研究思路,设计研究方案;罗琳:采集和分析实验所需真实数据;周通:进行实验,论文起草,初稿撰写;谭学清,罗琳:论文审阅和最终版本修订。
引用本文:   
谭学清, 周通, 罗琳. 一种基于类平均相似度的文本分类算法[J]. 现代图书情报技术, 2014, 30(9): 66-73.
Tan Xueqing, Zhou Tong, Luo Lin. A Text Classification Algorithm Based on the Average Category Similarity. New Technology of Library and Information Service, 2014, 30(9): 66-73.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.09.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2014/V30/I9/66

[1] Cover T M, Hart P E.Nearest Neighbor Pattern Classification [J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27.
[2] Lewis D D. Naive (Bayes) at Forty: the Independence Assumption Information Retrieval [C]. In: Proceedings of the 10th European Conference on Machine Learning (ECML'98), Chemnitz, Germany. London: Springer-Verlag, 1998: 4-15.
[3] Vapnik V N. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995: 235-313.
[4] 郑凤萍. 一种新的中文文本分类算法[J]. 现代情报, 2007, 27(3): 143-144. (Zheng Fengping. A New Kind of Chinese Text Classification Algorithm [J]. Journal of Modern Information, 2007, 27(3): 143-144.)
[5] 王建会, 王洪伟, 申展, 等. 一种实用高效的文本分类算法[J]. 计算机研究与发展, 2005, 42(1): 85-93. (Wang Jianhui, Wang Hongwei, Shen Zhan, et al. A Simple and Efficient Algorithm to Classify a Large Scale of Texts [J]. Journal of Computer Research and Development, 2005, 42(1): 85-93.)
[6] 朱靖波, 姚天顺. 基于FIFA 算法的文本分类[J]. 中文信息学报, 2002, 16(3): 20-26. (Zhu Jingbo, Yao Tianshun. FIFA-based Text Classification [J]. Journal of Chinese Information Processing, 2002, 16(3): 20-26.)
[7] Yigit H. A Weighting Approach for KNN Classifier[C]. In: Proceedings of 2013 International Conference on Electronics, Computer and Computation (ICECCO). IEEE, 2013: 228-231.
[8] Mejdoub M, Amar C B. Classification Improvement of Local Feature Vectors over the KNN Algorithm [J]. Multimedia Tools and Applications, 2013, 64(1): 197-218.
[9] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.
[10] Salton G, Yu C T. On the Construction of Effective Vocabu-laries for Information Retrieval [C]. In: Proceedings of the Meeting on Programming Languages and Information Retrieval (SIGPLAN'73). New York: ACM, 1973: 48-60.
[11] 沈竞. 基于信息增益的LDA模型的短文本分类[J]. 重庆文理学院学报: 自然科学版, 2011, 30(6): 64-66. (Shen Jing. The Classification of LDA Model Essay Based on Information Gain [J]. Journal of Chongqing University of Arts and Sciences:Natural Science Edition, 2011, 30(6): 64-66.)
[12] 裴英博, 刘晓霞. 文本分类中改进型CHI特征选择方法的研究[J]. 计算机工程与应用, 2011, 47(4): 128-130, 194. (Pei Yingbo, Liu Xiaoxia. Study on Improved CHI for Feature Selection in Chinese Text Categorization [J]. Computer Engineering and Applications, 2011, 47(4): 128-130, 194.)
[13] 黄志艳. 一种基于信息增益的特征选择方法[J]. 山东农业大学学报: 自然科学版, 2013, 44(2): 252-256. (Huang Zhiyan. Based on the Information Gain Text Feature Selection Method [J]. Journal of Shandong Agricultural University: Natural Science, 2013, 44(2): 252-256.)
[14] 徐峻岭, 周毓明, 陈林, 等. 基于互信息的无监督特征选择[J]. 计算机研究与发展, 2012, 49(2): 372-382. (Xu Junling, Zhou Yuming, Chen Lin, et al. An Unsupervised Feature Selection Approach Based on Mutual Information [J]. Journal of Computer Research and Development, 2012, 49(2): 372-382.)
[15] 田野, 南征, 郑伟, 等. 中文文本分类中特征选择方法的改进与比较[J]. 河北北方学院学报: 自然科学版, 2012, 28(6): 33-35. (Tian Ye, Nan Zheng, Zheng Wei, et al. Improvement and Comparison of Feature Selection Methods for Chinese Text Categorization [J]. Journal of Hebei North University: Natural Science Edition, 2012, 28(6): 33-35.)
[16] 司宪策. 基于内容的社会标签推荐与分析研究[D]. 北京: 清华大学, 2010. (Si Xiance. Content-based Recommendation and Analysis of Social Tags [D]. Beijing: Tsinghua University, 2010.)
[17] 奉国和. 文本分类性能评价研究[J]. 情报杂志, 2011, 30(8): 66-70. (Feng Guohe. Review of Performance Evaluation of Text Classification [J]. Journal of Intelligence, 2011, 30(8): 66-70.)

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[5] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[8] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[9] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[10] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[13] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[14] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[15] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn