Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (11): 103-110     https://doi.org/10.11925/infotech.2096-3467.2022.0141
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于URL多粒度特征融合的钓鱼网站识别*
胡忠义(),张硕果,吴江
武汉大学信息管理学院 武汉 430072
武汉大学电子商务研究与发展中心 武汉 430072
Identifying Phishing Websites Based on URL Multi-Granularity Feature Fusion
Hu Zhongyi(),Zhang Shuoguo,Wu Jiang
School of Information Management, Wuhan University, Wuhan 430072, China
The Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China
全文: PDF (728 KB)   HTML ( 9
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 缓解钓鱼网站识别中URL表征不充分的问题,构建一种基于URL多粒度特征融合的识别模型。【方法】 分别基于独热编码和BERT深度表征URL的字符级和单词级特征,进而通过融合两种粒度的深度特征构建钓鱼网站识别模型。【结果】 所构建的融合多粒度URL特征的识别模型在实验数据集上的准确率、召回率、F1值以及AUC值分别达到0.96、0.98、0.97、0.97,比单一粒度的表征模型、基准分类器和以往模型具有更好的识别性能。【局限】 除了URL特征表征,有待进一步融合包括URL页面内容在内的更多源特征。【结论】 构建的模型可以更全面地深度表征URL特征,有效提升了钓鱼网站的识别准确性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
胡忠义
张硕果
吴江
关键词 钓鱼网站识别特征融合BERTWord2VecCNNLSTM    
Abstract

[Objective] This study proposes a model based on URL multi-granularity feature fusion, aiming to more effectively identify phishing websites. [Methods] First, we retrieved the character-level and word-level features of URLs with one-hot encoding and BERT. Then, we constructed the new identification model by fusing the deep features of both granularities. [Results] The accuracy, recall, F-value, and AUC values of the proposed model reached 0.96, 0.98, 0.97, and 0.97, respectively. It had better performance than the single-granularity feature representation-based models, benchmark classifiers, and other popular models. [Limitations] More research is needed to include webpage contents to the model. [Conclusions] The proposed model can represent URL features more comprehensively, and effectively identify phishing websites.

Key wordsPhishing Websites Identification    Feature Fusion    BERT    Word2Vec    CNN    LSTM
收稿日期: 2022-02-23      出版日期: 2023-01-13
ZTFLH:  G353  
基金资助:* 教育部哲学社会科学研究重大课题攻关项目(20JZD024);中国博士后科学基金项目(2019T120690)
通讯作者: 胡忠义     E-mail: zhongyi.hu@whu.edu.cn
引用本文:   
胡忠义,张硕果,吴江. 基于URL多粒度特征融合的钓鱼网站识别*[J]. 数据分析与知识发现, 2022, 6(11): 103-110.
Hu Zhongyi,Zhang Shuoguo,Wu Jiang. Identifying Phishing Websites Based on URL Multi-Granularity Feature Fusion. Data Analysis and Knowledge Discovery, 2022, 6(11): 103-110.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0141      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I11/103
Fig.1  钓鱼网站识别模型结构
标签 类别 训练集 测试集
0 钓鱼网站 13 434 1 493
1 合法网站 13 248 1 472
合计 26 682 2 965
Table 1  训练集与测试集划分
参数名 参数意义 单词级模型 字符级模型
Length 词集(或字符)的限定长度 50 128
Filter CNN层filter个数 3 3
Kernel CNN层kernel大小 6 32
Stride CNN层步长 1 1
Dropout LSTM中输入层到隐层dropout概率 0.3 0.3
Recurrent LSTM中隐层dropout概率 0.3 0.3
Outsize 输出维度 60 95
Table 2  URL特征提取模型的参数设置
准确率 召回率 F1值 AUC
0.96 0.98 0.97 0.97
Table 3  模型在测试集上的评估结果
特征提取模型 缩写 准确率 召回率 F1值 AUC
基于独热编码的字符级 Co 0.81 0.86 0.83 0.83
单词级 基于独热编码 Wo 0.83 0.82 0.83 0.81
基于Word2vec Wv 0.76 0.76 0.76 0.76
基于BERT Wb 0.92 0.95 0.93 0.89
融合字符级与单词级 基于独热编码 Co&Wo 0.91 0.93 0.93 0.93
基于Word2vec Co&Wv 0.79 0.78 0.76 0.78
基于BERT
(本文)
Co&Wb 0.96 0.98 0.97 0.97
Table 4  基于不同特征提取模型的识别性能
多粒度特征提取 基准分类器 准确率 召回率 F1值 AUC
Co&Wb 全连接网络
(本文模型)
0.96 0.98 0.97 0.97
支持向量机 0.91 0.91 0.90 0.90
决策树 0.94 0.91 0.92 0.91
K近邻算法 0.89 0.89 0.88 0.88
随机森林 0.95 0.96 0.97 0.96
Co&Wv 全连接网络 0.79 0.78 0.76 0.78
支持向量机 0.82 0.81 0.81 0.80
决策树 0.79 0.78 0.78 0.78
K近邻算法 0.77 0.77 0.77 0.79
随机森林 0.81 0.82 0.80 0.79
Co&Wo 全连接网络 0.91 0.93 0.93 0.93
支持向量机 0.88 0.89 0.89 0.89
决策树 0.90 0.90 0.90 0.90
K近邻算法 0.86 0.85 0.86 0.85
随机森林 0.90 0.91 0.91 0.90
Table 5  基于不同分类模型的性能
模型 准确率 召回率 F1值 AUC
本文模型 0.96 0.98 0.97 0.97
AI-Alyan等[9] 0.91 0.86 0.88 0.90
Ren等[16] 0.83 0.87 0.85 0.80
Yang等[14] 0.87 0.90 0.89 0.90
Huang等[18] 0.96 0.97 0.97 0.96
Table 6  与已有模型的性能对比
[1] Sheng S, Wardman B, Warner G, et al. An Empirical Analysis of Phishing Blacklists[C]// Proceedings of the 6th Conference on Email and Anti-Spam. 2009: 112-118.
[2] Purkait S. Examining the Effectiveness of Phishing Filters Against DNS Based Phishing Attacks[J]. Information & Computer Security, 2015, 23(3): 333-346.
[3] Blum A, Wardman B, Solorio T, et al. Lexical Feature Based Phishing URL Detection Using Online Learning[C]// Proceedings of the 3rd ACM Workshop on Artificial Intelligence and Security. 2010: 54-60.
[4] 黄华军, 钱亮, 王耀钧. 基于异常特征的钓鱼网站URL检测技术[J]. 信息网络安全, 2012(1): 23-25, 67.
[4] (Huang Huajun, Qian Liang, Wang Yaojun. Detection of Phishing URL Based on Abnormal Feature[J]. Netinfo Security, 2012(1): 23-25, 67.)
[5] 胡忠义, 王超群, 吴江. 融合多源网络评估数据及URL特征的钓鱼网站识别技术研究[J]. 数据分析与知识发现, 2017, 1(6): 47-55.
[5] (Hu Zhongyi, Wang Chaoqun, Wu Jiang. Identifying Phishing Websites with Multiple Online Data Sources[J]. Data Analysis and Knowledge Discovery, 2017, 1(6): 47-55.)
[6] 陈远, 王超群, 胡忠义, 等. 基于主成分分析和随机森林的恶意网站评估与识别[J]. 数据分析与知识发现, 2018, 2(4): 71-80.
[6] (Chen Yuan, Wang Chaoqun, Hu Zhongyi, et al. Identifying Malicious Websites with PCA and Random Forest Methods[J]. Data Analysis and Knowledge Discovery, 2018, 2(4): 71-80.)
[7] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.
[8] Xiao X, Zhang D Y, Hu G W, et al. CNN-MHSA: A Convolutional Neural Network and Multi-Head Self-Attention Combined Approach for Detecting Phishing Websites[J]. Neural Networks, 2020, 125: 303-312.
doi: S0893-6080(20)30058-7 pmid: 32172140
[9] Al-Alyan A, Al-Ahmadi S. Robust URL Phishing Detection Based on Deep Learning[J]. KSII Transactions on Internet and Information Systems, 2020, 14(7): 2752-2768.
[10] Saxe J, Berlin K. EXpose: A Character-Level Convolutional Neural Network with Embeddings for Detecting Malicious URLs, File Paths and Registry Keys[OL]. arXiv Preprint, arXiv: 1702.08568.
[11] Ozcan A, Catal C, Donmez E, et al. A Hybrid DNN-LSTM Model for Detecting Phishing URLs[J]. Neural Computing and Applications, 2021.DOI: 10.1007/s00521-021-06401-z.
doi: 10.1007/s00521-021-06401-z
[12] Bahnsen A C, Bohorquez E C, Villegas S, et al. Classifying Phishing URLs Using Recurrent Neural Networks[C]// Proceedings of 2017 APWG Symposium on Electronic Crime Research (eCrime). 2017: 1-8.
[13] Vinayakumar R, Soman K P, Poornachandran P. Evaluating Deep Learning Approaches to Characterize and Classify Malicious URL’s[J]. Journal of Intelligent & Fuzzy Systems, 2018, 34(3): 1333-1343.
[14] Yang P, Zhao G Z, Zeng P. Phishing Website Detection Based on Multidimensional Features Driven by Deep Learning[J]. IEEE Access, 2019, 7: 15196-15209.
doi: 10.1109/ACCESS.2019.2892066
[15] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301.3781.
[16] Ren F L, Jiang Z W, Liu J. A Bi-Directional LSTM Model with Attention for Malicious URL Detection[C]// Proceedings of 2019 IEEE 4th Advanced Information Technology, Electronic and Automation Control Conference. 2019: 300-305.
[17] Wang W P, Zhang F, Luo X, et al. PDRCNN: Precise Phishing Detection with Recurrent Convolutional Neural Networks[J]. Security and Communication Networks, 2019, 2019: e2595794.
[18] Huang Y J, Yang Q P, Qin J H, et al. Phishing URL Detection via CNN and Attention-Based Hierarchical RNN[C]// Proceedings of 2019 18th IEEE International Conference on Trust, Security and Privacy in Computing and Communications/13th IEEE International Conference on Big Data Science and Engineering. 2019: 112-119.
[19] Feng J, Zou L Y, Ye O, et al. Web2Vec: Phishing Webpage Detection Method Based on Multidimensional Features Driven by Deep Learning[J]. IEEE Access, 2020, 8: 221214-221224.
doi: 10.1109/ACCESS.2020.3043188
[20] Le H, Pham Q, Sahoo D, et al. URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection[OL]. arXiv Preprint, arXiv:1802.03162.
[21] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv:1810.04805.
[1] 王代琳, 刘丽娜, 刘美玲, 刘亚秋. 基于图书目录注意力机制的读者偏好分析与推荐模型研究[J]. 数据分析与知识发现, 2022, 6(9): 138-152.
[2] 张治鹏, 毛煜升, 张李义. 基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究*[J]. 数据分析与知识发现, 2022, 6(9): 65-76.
[3] 胡吉明, 钱玮, 文鹏, 吕晓光. 基于结构功能和实体识别的文本语义表示——以病历领域为例*[J]. 数据分析与知识发现, 2022, 6(8): 110-121.
[4] 施运梅, 袁博, 张乐, 吕学强. IMTS:融合图像与文本语义的虚假评论检测方法*[J]. 数据分析与知识发现, 2022, 6(8): 84-96.
[5] 张顺香, 张镇江, 朱广丽, 赵彤, 黄菊. 基于Bi-LSTM与双路CNN的金融领域文本因果关系识别*[J]. 数据分析与知识发现, 2022, 6(7): 118-127.
[6] 杨文丽, 李娜娜. 基于对抗网络的文本对齐跨语言情感分类方法*[J]. 数据分析与知识发现, 2022, 6(7): 141-151.
[7] 吴江, 刘涛, 刘洋. 在线社区用户画像及自我呈现主题挖掘——以网易云音乐社区为例*[J]. 数据分析与知识发现, 2022, 6(7): 56-69.
[8] 郑洁, 黄辉, 秦永彬. 一种融合法律知识的相似案例匹配模型*[J]. 数据分析与知识发现, 2022, 6(7): 99-106.
[9] 潘慧萍, 李宝安, 张乐, 吕学强. 基于多特征融合的政府工作报告关键词提取研究*[J]. 数据分析与知识发现, 2022, 6(5): 54-63.
[10] 肖悦珺, 李红莲, 张乐, 吕学强, 游新冬. 特征融合的中文专利文本分类方法研究*[J]. 数据分析与知识发现, 2022, 6(4): 49-59.
[11] 杨林, 黄晓硕, 王嘉阳, 丁玲玲, 李子孝, 李姣. 基于BERT-TextCNN的临床试验疾病亚型识别研究*[J]. 数据分析与知识发现, 2022, 6(4): 69-81.
[12] 韦婷婷, 江涛, 郑舒玲, 张建桃. 融合LSTM与逻辑回归的中文专利关键词抽取*[J]. 数据分析与知识发现, 2022, 6(2/3): 308-317.
[13] 周云泽, 闵超. 基于LDA模型与共享语义空间的新兴技术识别——以自动驾驶汽车为例*[J]. 数据分析与知识发现, 2022, 6(2/3): 55-66.
[14] 郭航程, 何彦青, 兰天, 吴振峰, 董诚. 基于Paragraph-BERT-CRF的科技论文摘要语步功能信息识别方法研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 298-307.
[15] 王永生, 王昊, 虞为, 周泽聿. 融合结构和内容的方志文本人物关系抽取方法*[J]. 数据分析与知识发现, 2022, 6(2/3): 318-328.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn