Please wait a minute...
Advanced Search
现代图书情报技术  2016, Vol. 32 Issue (1): 24-31    DOI: 10.11925/infotech.1003-3513.2016.01.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
采用URL特征的Hub网页识别方法研究*
张策1(),都云程1,2,梁然2
1北京信息科技大学TRS软件开放实验室 北京 100085
2北京拓尔思信息技术股份有限公司 北京 100101
A Study on Hub Page Recognition Using URL Features
Ce Zhang1(),Yuncheng Du1,2,Ran Liang2
1Open Laboratory of TRS Software, Beijing Information Science and Technology University, Beijing 100085, China
2Beijing TRS Information Technology Co. Ltd., Beijing 100101, China
全文: PDF(527 KB)   HTML ( 76
输出: BibTeX | EndNote (RIS)       背景资料
文章导读  
摘要 【目的】通过构建简单数据样本, 解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据, 抽取URL信息构建训练集与测试集, 使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%, 优于其他识别方法。在效率性能方面, 该方法提升近60%。【局限】 当遇到URL特征不明显甚至完全相背的网站时, 识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势, 应用到采集系统中可提高采集效率。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张策
都云程
梁然
关键词 URL特征Hub网页支持向量机    
Abstract

[Objective] By building a simple data sample, the low efficiency as the problem of traditional recognition method is solved. [Methods] This method uses URL features as the basis of recognition, and uses Support Vector Machine (SVM) to recognize page type. [Results] The precision of this method is 91.2%, also in terms of efficiency performance, the method is increased by nearly 60%. [Limitations] When the URL feature is not obvious or even completely contrary, the recognition accuracy will be greatly reduced. [Conclusions] The experimental results show that the method has a great advantage in efficiency, and it will increase the efficiency of the collection system.

Key wordsURL features    Hub pages    SVM
收稿日期: 2015-06-25     
基金资助:*本文系国家自然科学基金项目“网页内容真实性评价研究”(项目编号: 61171159)的研究成果之一
引用本文:   
张策,都云程,梁然. 采用URL特征的Hub网页识别方法研究*[J]. 现代图书情报技术, 2016, 32(1): 24-31.
Ce Zhang,Yuncheng Du,Ran Liang. A Study on Hub Page Recognition Using URL Features. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2016.01.05.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.01.05
[1] 孟涛, 闫宏飞, 王继民. Web 网页信息变化的时间局部性规律及其验证[J]. 情报学报, 2005, 24(4): 398-406.
[1] (Meng Tao, Yan Hongfei, Wang Jimin.Characterizing Temporal Locality in Changes of Web Documents[J]. Journal of the China Society for Scientific and Technical Information, 2005, 24(4): 398-406.)
[2] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统[M]. 北京:科学出版社, 2005.
[2] (Li Xiaoming, Yan Hongfei, Wang Jimin.Search Engine: Theory, Technology and System [M]. Beijing: Science Press, 2005.)
[3] Cho J, Garcia-Molina H.The Evolution of the Web and Implications for an Incremental Crawler[C]. In: Proceedings of the 26th International Conference on Very Large Data Bases, 2002.
[4] Meng T, Yan H, Wang J, et al.The Evolution of Link- attributes for Pages and Its Implications on Web Crawling[C]. In: Proceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence, 2004.
[5] Ali R, Beg N M S. An Overview of Web Search Evaluation Methods[J]. Computers & Electrical Engineering,2011,37(6): 835-848.
[6] 曹桂峰. 搜索引擎中网页分类和网页净化的研究与实现[D]. 武汉: 武汉理工大学, 2013.
[6] (Cao Guifeng.Design and Implement of Webpage Classify and Clean in Search Engine [D]. Wuhan: Wuhan University of Technology, 2013.)
[7] Zhang X, Zhou M, Geng G, et al.A Combined Feature Selection Method for Chinese Text Categorization [C]. In: Proceedings of the 2009 International Conference on Information Engineering and Computer Science, 2009.
[8] 谢光华. 中文网页自动分类的研究及其应用[D]. 大连: 大连理工大学,2007.
[8] (Xie Guanghua.Research and Application of Chinese Web Page Automatic Classification[J]. Journal of Dalian University of Technology, 2007.)
[9] Wang R J, Wang D J.Web Information Acquisition by Personal Search Engine Based on SVM[J]. International Journal of Information Acquisition, 2005, 2(4): 345-352.
[10] 庞剑锋, 卜东波, 白硕. 基于向量空间模型的文本自动分类系统的研究与实现[J]. 计算机应用研究, 2001, 18(9): 23-26.
[10] (Pang Jianfeng, Bu Dongbo, Bai Shuo.Research and Implementation of Text Categorization System Based on VSM[J]. Application Research of Computers, 2001, 18(9): 23-26.)
[11] 李亮, 刘万春, 徐泉清, 等. 一种基于支持向量机的专业中文网页分类器[J]. 计算机应用, 2004, 24(4): 58-61.
[11] (Li Liang, Liu Wanchun, Xu Quanqing, et al.A Professional Chinese Web Page Classifier Based on Support Vector Machine[J]. Computer Application, 2004, 24(4): 58-61.)
[12] 张学工. 关于统计学习理论与支持向量机[J]. 自动化学报, 2000, 26(1): 32-42.
[12] (Zhang Xuegong.Introduction to Statistical Learning Theory and Support Vector Machines[J]. Acta Automatica Sinica, 2000, 26(1): 32-42.)
[13] Chang C C, Lin C J. LIBSVM: A Library for Support Vector Machines [J]. Transactions on Intelligent Systems and Technology, 2011, 2(3): Article No.27.
[14] Jiang J, Song X, Yu N, et al.Focus: Learning to Crawl Web Forums[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(6): 1293-1306.
[15] Le A, Markopoulou A, Faloutsos M.PhishDef: URL Names Say It All [C]. In: Proceedings of the 30th IEEE International Conference on Computer Communications (INFOCOM), Shanghai, China. 2011.
[1] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[2] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[3] 侯君,刘魁,李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
[4] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[5] 曾金,陆伟,丁恒,陈海华. 基于图像语义的用户兴趣建模*[J]. 数据分析与知识发现, 2017, 1(4): 76-83.
[6] 田世海,吕德丽. 改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*[J]. 数据分析与知识发现, 2017, 1(2): 11-18.
[7] 杨爽,陈芬. 基于SVM多特征融合的微博情感多级分类研究*[J]. 数据分析与知识发现, 2017, 1(2): 73-79.
[8] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[9] 张晔,张晗,尹玢璨,赵玉虹. 基于电子病历利用支持向量机构建疾病预测模型*——以重度急性胰腺炎早期预警为例[J]. 现代图书情报技术, 2016, 32(2): 83-89.
[10] 何跃, 宋灵犀, 齐丽云. 负面事件中的品牌网络口碑溢出效应研究——以“圆通夺命快递”事件为例[J]. 现代图书情报技术, 2015, 31(10): 58-64.
[11] 胡吉明, 陈果. 超球支持向量机文本分类方法改进[J]. 现代图书情报技术, 2014, 30(9): 74-80.
[12] 刘勘, 朱怀萍, 刘秀芹. 基于支持向量机的网络伪舆情识别研究[J]. 现代图书情报技术, 2013, 29(11): 75-80.
[13] 应伟,王正欧,安金龙. 种基于改进的支持向量机的两类文本分类方法的研究*[J]. 现代图书情报技术, 2005, 21(12): 44-47.
[14] 陈立孚,周宁,李丹. 基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005, 21(10): 23-27.
[15] 施洁斌. 基于支持向量机的文本自动分类试验研究[J]. 现代图书情报技术, 2004, 20(7): 27-29.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn