Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (6): 47-55     https://doi.org/10.11925/infotech.2096-3467.2017.06.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合多源网络评估数据及URL特征的钓鱼网站识别技术研究*
胡忠义(), 王超群, 吴江
武汉大学信息管理学院 武汉 430072
武汉大学电子商务研究与发展中心 武汉 430072
Identifying Phishing Websites with Multiple Online Data Sources
Hu Zhongyi(), Wang Chaoqun, Wu Jiang
School of Information Management, Wuhan University, Wuhan 430072, China
The Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China
全文: PDF (1554 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】充分利用多源网络评估数据和URL异常特征数据, 研究提高钓鱼网站识别准确性的可行性方案。【方法】采用8种机器学习技术, 对比研究网络评估数据与传统的URL异常特征数据在钓鱼网站识别中的性能, 并融合两类数据研究进一步提高钓鱼网站识别准确性的可行性方案。【结果】在钓鱼网站识别中, 相比于传统的URL异常特征, 利用网络评估数据可以取得更好的识别效果。融合两类数据对于提高识别准确性有一定帮助。【局限】未考虑钓鱼网站与正常网站的数量存在严重的不均衡问题。【结论】充分利用多源网络评估数据和URL异常特征数据识别钓鱼网站的方法是比较合理和有效的, 对后续相关研究具有一定的借鉴意义。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
胡忠义
王超群
吴江
关键词 数据挖掘钓鱼网站识别机器学习    
Abstract

[Objective] This study aims to identify phishing websites more effectively with the help of online evaluation data and URL abnormal features. [Methods] First, we used eight machine learning techniques to compare the performance of various online evaluation data and URL abnormal features in identifying phishing websites. Then, we proposed a new method to improve the accuracy of the identification procedures. [Results] We found that the evaluation data had better performance than abnormal features of URL. Combining the two data sets could improve the identification performance. [Limitations] We did not consider the difference between the numbers of phishing sites and the good ones. [Conclusions] Online evaluation data and URL abnormal features could help us identify phishing websites effectively, which indicates the direction of future studies.

Key wordsData Mining    Phishing Websites Identification    Machine Learning
收稿日期: 2017-04-10      出版日期: 2017-08-25
ZTFLH:  G353  
基金资助:*本文系国家自然科学基金面上项目“创新2.0超网络中知识流动和群集交互的协同研究”(项目编号: 71373194)和国家自然科学基金青年基金项目“基于集成学习的区间型电力负荷预测技术研究”(项目编号: 71601147)的研究成果之一
引用本文:   
胡忠义, 王超群, 吴江. 融合多源网络评估数据及URL特征的钓鱼网站识别技术研究*[J]. 数据分析与知识发现, 2017, 1(6): 47-55.
Hu Zhongyi,Wang Chaoqun,Wu Jiang. Identifying Phishing Websites with Multiple Online Data Sources. Data Analysis and Knowledge Discovery, 2017, 1(6): 47-55.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.06.05      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I6/47
  识别技术流程
判断是正常网站 判断是钓鱼网站
实际是正常网站 TN FP
实际是钓鱼网站 FN TP
  二分类的混合矩阵
  基于Boruta的URL特征选择
方法 准确率 查准率 查全率 F值
决策树 0.5935 0.9099 0.2150 0.3433
SVM 0.6340 0.7744 0.3780 0.5074
K近邻法 0.6205 0.6411 0.5610 0.5954
朴素贝叶斯 0.5990 0.9720 0.2040 0.3362
人工神经网络 0.6420 0.7535 0.4290 0.5457
AdaBoost 0.6435 0.7500 0.4400 0.5534
Bagging 0.6445 0.7587 0.4260 0.5443
随机森林 0.6390 0.7828 0.3850 0.5155
  8种方法的评估结果
  基于Boruta的网络评估数据特征选择
方法 准确率 查准率 查全率 F值
决策树 0.8810 0.8576 0.9160 0.8845
SVM 0.9145 0.9026 0.9310 0.9159
K近邻法 0.9115 0.9030 0.9240 0.9126
朴素贝叶斯 0.7455 0.6659 0.9890 0.7956
人工神经网络 0.8695 0.9226 0.8460 0.8818
AdaBoost 0.9415 0.9335 0.9500 0.9412
Bagging 0.9230 0.9174 0.9310 0.9234
随机森林 0.9415 0.9355 0.9500 0.9421
  8种方法的评估结果
  基于Boruta的URL和网络评估数据的特征选择
方法 准确率 查准率 查全率 F值
决策树 0.8810 0.8576 0.9160 0.8845
SVM 0.9119 0.9280 0.9194 0.9185
K近邻法 0.9200 0.9133 0.9300 0.9208
朴素贝叶斯 0.7690 0.6881 0.9880 0.8108
人工神经网络 0.8945 0.8879 0.8710 0.8776
AdaBoost 0.9415 0.9383 0.9430 0.9403
Bagging 0.9230 0.9174 0.9310 0.9234
随机森林 0.9435 0.9363 0.9530 0.9442
  8种方法的评估结果
  三组实验F值的对比
[1] Sheng S, Weidman B, Warner G, et al.An Empirical Analysis of Phishing Blacklists[C]//Proceedings of the 6th Conference on Email and Anti-Spam, California, USA.2009: 112-118.
[2] Zhang Y, Egelman S, Cranor L, et al.Phinding Phish: Evaluating Anti-phishing Tools[C]//Proceedings of the 14th Annual Network and Distributed System Security Symposium. 2007: 381-192.
[3] Blum A, Warden B, Solaria T, et al.Lexical Feature Based Phishing URL Detection Using Online Learning[C]// Proceedings of the ACM Workshop on Artificial Intelligence & Security. 2010: 54-60.
[4] 黄华军, 钱亮, 王耀钧. 基于异常特征的钓鱼网站 URL 检测技术[J]. 信息网络安全, 2012 (1): 23-25.
[4] (Huang Huajun, Qian Liang, Wang Yaojun.Detection of Phishing URL Based on Abnormal Feature[J]. Netinfo Security, 2012(1): 23-25.)
[5] Ma J, Saul L K, Savage S, et al.Identifying Suspicious URLs: An Application of Large-scale Online Learning[C]// Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 681-688.
[6] Ma J, Saul L K, Savage S, et al.Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2009: 1245-1254.
[7] 曾传璜, 李思强, 张小红. 基于AdaCostBoost 算法的网络钓鱼检测[J]. 计算机系统应用, 2015, 24(9): 129-133.
[7] (Zeng Chuanhuang, Li Siqiang, Zhang Xiaohong.Phishing Detection System Based on AdaCostBoost Algorithm[J]. Computer Systems & Applications, 2015, 24(9): 129-133.)
[8] Thomas K, Grier C, Ma J, et a1. Design and Evaluation of a Real-time URL Spam Filtering Service[C]// Proceedings of the 2011 IEEE Symposium on Security and Privacy, Berkeley, California, USA. 2011: 376-382.
[9] 顾晓清, 王洪元, 倪彤光, 等. 基于贝叶斯和支持向量机的钓鱼网站检测方法[J]. 计算机工程与应用, 2015, 51(4): 87-90.
[9] (Gu Xiaoqing, Wang Hongyuan, Ni Tongguang, et al.Phishing Detection Approach Based on Naïve Bayes and Support Vector Machine[J]. Computer Engineering and Applications, 2015, 51(4): 87-90.)
[10] Hu Z, Chiong R, Pranata I, et al.Identifying Malicious Web Domains Using Machine Learning Techniques with Online Credibility and Performance Data[C]//Proceedings of the 2016 IEEE Congress on Evolutionary Computation (CEC), Vancouver, Canada. 2016: 5186-5194.
[11] Kursa M B, Rudnicki W R.Feature Selection with the Boruta Package[J]. Journal of Statistical Software, 2010, 36(11): 1-13.
doi: 10.18637/jss.v036.i11
[12] Freund Y, Schapire R E.A Decision-theoretic Generalization of On-line Learning and an Application to Boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
doi: 10.1007/3-540-59119-2_166
[13] Lo S L, Chiong R, Cornforth D.Using Support Vector Machine Ensembles for Target Audience Classification on Twitter[J]. PLoS One, 2015, 10(3): 417-434.
doi: 10.1371/journal.pone.0122855 pmid: 4395415
[14] Bayes T, Price R, Canton J.An Essay Towards Solving a Problem in the Doctrine of Chances[J]. Reasonance, 2003, 8(4): 80-88.
doi: 10.1007/BF02883540
[15] Breiman L.Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
doi: 10.1023/A:1010933404324
[1] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[2] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[3] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[4] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[5] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[6] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[7] 张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[8] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[9] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[10] 牟冬梅,法慧,王萍,孙晶. 基于结构方程模型的疾病危险因素研究*[J]. 数据分析与知识发现, 2019, 3(4): 80-89.
[11] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[12] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[13] 李静,潘舒笑,李雪岩,贾立静,赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *[J]. 数据分析与知识发现, 2019, 3(12): 101-112.
[14] 沈洋,庄伟超,吴清华,钱玲飞. 基于区间模糊VIKOR的监犯特征风险评估研究 *[J]. 数据分析与知识发现, 2019, 3(11): 70-78.
[15] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn