Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (4): 75-78     https://doi.org/10.11925/infotech.1003-3513.2007.04.18
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
改进KNN算法在垃圾邮件过滤中的应用*
张俊丽 张帆
(华中师范大学信息管理系 武汉 430079)
Application of Improved KNN Algorithm in Spam Email Filtering
Zhang Junli   Zhang Fan
(Department of Information Management, Huazhong Normal University, Wuhan 430079, China)
全文: PDF (399 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种改进的KNN算法,并将其用于垃圾邮件的过滤问题。经实验证明,改进的算法能够降低K值和训练文本的分布对过滤效果的影响,减少垃圾邮件的误判和漏判,具有较好的过滤性能。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张帆
张俊丽
关键词 KNN垃圾邮件过滤文本分类    
Abstract

In this paper, an improved K-Nearest Neighbor (KNN) is proposed and is applied to filter spam email. It’s proved that the improved algorithm is less sensitive to the parameter K and the distribution of the training set, helps reducing the misclassification, and performances well in experiments.

Key wordsKNN    Anti-spam email    Text classification
收稿日期: 2007-03-05      出版日期: 2007-04-25
: 

TP391

 
基金资助:

* 本文系2006年国家社科基金项目“网络信息过滤研究”(项目编号: 06BTQ024)的研究成果之一。

通讯作者: 张俊丽     E-mail: elili62@126.com
作者简介: 张俊丽,张帆
引用本文:   
张俊丽,张帆 . 改进KNN算法在垃圾邮件过滤中的应用*[J]. 现代图书情报技术, 2007, 2(4): 75-78.
Zhang Junli,Zhang Fan . Application of Improved KNN Algorithm in Spam Email Filtering. New Technology of Library and Information Service, 2007, 2(4): 75-78.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.04.18      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I4/75

1张帆.信息组织学.北京:科学出版社,2005:411- 412
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述.中文信息学报,2005,19(5):4-5
3Joachims T.Text Categorization with Support Vector Machines: Learning with Many Relevant Features.European Conference on Machine Learning, 1998
4Li Baoli,Chen Yuzhong,Yu Shiwen. A Comparative Study on Automatic Categorization Methods for Chinese Search Engine.In:Proceedings of the Eighth Joint International Computer Conference, 2002:117-120
5Androutsopoulos I,Koutsias J, Chandrinos K V,Spyropoulos C D. An  Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Encrypted Personal E-mail Messages.  In:Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2000: 160-167
6Cover T M, Hart P E. Nearest Neighbor Pattern Classification.IEEE Trans.Inform.Theory,1967(13):23
7Salton G, Wong A, Yang C S. A Vector Model for Automatic Indexing. Communication of ACM,1975,18(11):613-620
8Sahami M,Dumais S,Heckerman D,Horvitz E.A Bayesian  Approach to Filtering Junk E-Mail. AAAI Technical Report, 1998(5): 55-62
9Mitchell T M. Machine Learning.New York: McGraw-Hill, 1997
10Salton G,McGill M J. Introduction to Modern Information Retrieval. McGraw Hill, Computer Series, 1983
11徐洪伟,方勇,音春.垃圾邮件过滤技术分析.通信技术,2003,142(10):127
12Georgios Sakkis, Ion Androutsopoulos.  Stacking  Classifiers for Anti-Spam Filtering of Email. In:Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2001:44-50
13Androutsopoulos I,Koutsias J,Chandrinos K V,Paliouras P,Spyropoulos C D.An  Evaluation of Na?ve Bayesian Anti-Spam Filtering. In:Proceedings of the Workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning. 2000:9-17
14The Linguist List.  http://listserv.linguistlist.org/archives/linguist.html. (Accessed Dec.20,2006)

[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14] 陈万成,戴浩然,金映含. 基于数据挖掘方法的HEDONIC房屋价格评估模型——以美国城市西雅图为例[J]. 数据分析与知识发现, 2019, 3(5): 19-26.
[15] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn