Web日志挖掘数据预处理方法研究

doi:10.11925/infotech.1003-3513.2004.12.13

现代图书情报技术

2004, Vol. 20

Issue (12): 55-57 https://doi.org/10.11925/infotech.1003-3513.2004.12.13

网络资源与建设

本期目录 | 过刊浏览 | 高级检索

Web日志挖掘数据预处理方法研究

柳胜国

(宝鸡文理学院图书馆陕西 721000)

Research on Data Preprocessing Method in Web Log Mining

Liu Shengguo

(Library of Baoji University of Arts and Sciences, Shanxi 721000,China)

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究，可以对网站的组织结构及其性能进行改进，增加个性化服务，发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化，目的是分割服务器日志为多个独一无二的用户的一次访问序列，并给予了算法实现。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章

关键词 ： Web日志挖掘, 数据挖掘, 数据预处理, 方法研究

Abstract：

Web log mining is the most important application in Web data mining. We can improve the organization structure of Web site and its function ,increase personalized service and discover the potential reader group on the basis of the analysis and research of Web log mining documents. Data preprocessing decides the quality of Web log mining. It includes data clearing, user identifying, user session identifying, format, etc. and its aim is to separate Web server log into multi-user reference strings and also give the reference type realization.

Key words： Web log mining Data mining Data preprocessing Research method

收稿日期: 2004-07-27 出版日期: 2004-12-25

ZTFLH:

TP311

通讯作者: 柳胜国 E-mail: lsgtsg@sina.com

作者简介: 柳胜国

引用本文:

柳胜国. Web日志挖掘数据预处理方法研究 [J]. 现代图书情报技术, 2004, 20(12): 55-57.
Liu Shengguo. Research on Data Preprocessing Method in Web Log Mining. New Technology of Library and Information Service, 2004, 20(12): 55-57.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2004.12.13 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2004/V20/I12/55

1 ［加］Han J,Kamber M．数据挖掘概念与技术．北京：机械工业出版社，2001：123-124
2 赵伟,何丕廉,陈霞,谢振亮. Ｗｅｂ日志挖掘中的数据预处理技术研究. 计算机应用,2003 (5)：62-67
3 童恒庆，梅清. Web的日志挖掘数据预处理研究.现代计算机，2004（3）：5-9
4 张健沛,刘建东,杨静. 基于Web的日志挖掘数据预处理方法的研究. 计算机工程与应用,2003(10)：191-193

[1]	谢旺, 王丽珍, 陈红梅, 曾兰清. 基于空间序偶模式挖掘污染源与癌症病例的关系 ^*[J]. 数据分析与知识发现, 2021, 5(2): 14-31.
[2]	张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 ^*[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[3]	陆泉,朱安琪,张霁月,陈静. *中文网络健康社区中的用户信息需求挖掘研究^——以求医网肿瘤板块数据为例**[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[4]	牟冬梅,法慧,王萍,孙晶. 基于结构方程模型的疾病危险因素研究^*[J]. 数据分析与知识发现, 2019, 3(4): 80-89.
[5]	李勇男. 贝叶斯理论在反恐情报分类分析中的应用研究^*[J]. 数据分析与知识发现, 2018, 2(10): 9-14.
[6]	牟冬梅, 王萍, 赵丹宁. 高维电子病历的数据降维策略与实证研究^*[J]. 数据分析与知识发现, 2018, 2(1): 88-98.
[7]	胡忠义, 王超群, 吴江. 融合多源网络评估数据及URL特征的钓鱼网站识别技术研究^*[J]. 数据分析与知识发现, 2017, 1(6): 47-55.
[8]	江思伟, 谢振平, 陈梅婕, 蔡明. 混合特征数据的自解释归约建模方法^*[J]. 数据分析与知识发现, 2017, 1(12): 92-100.
[9]	牟冬梅,任珂. 三种数据挖掘算法在电子病历知识发现中的比较^*[J]. 现代图书情报技术, 2016, 32(6): 102-109.
[10]	李峰,李书宁,于静. 面向院系的高校毕业生图书馆记忆系统[J]. 现代图书情报技术, 2016, 32(5): 99-103.
[11]	赵静娴. 基于决策树的网络伪舆情识别研究[J]. 现代图书情报技术, 2015, 31(6): 78-84.
[12]	刘伙玉, 王东波. 面向论文相似性检测的数据预处理研究[J]. 现代图书情报技术, 2015, 31(5): 50-56.
[13]	何建民, 王哲. 社交网络话题信息传播影响簇发现谱系挖掘方法[J]. 现代图书情报技术, 2015, 31(5): 65-72.
[14]	黄文彬, 徐山川, 马龙, 王军. 利用通信数据的移动用户行为分析[J]. 现代图书情报技术, 2015, 31(5): 80-87.
[15]	郝玫, 王道平. 面向供应链的产品评论中客户关注特征挖掘方法研究[J]. 现代图书情报技术, 2014, 30(4): 65-70.

Viewed

Full text

Abstract

Cited

Shared

Discussed