Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (8): 31-38     https://doi.org/10.11925/infotech.2096-3467.2017.0511
  首届"数据分析与知识发现"学术研讨会专辑(II) 本期目录 | 过刊浏览 | 高级检索 |
基于日志分析的民办高校大学生网络生活类型研究
陈润文, 邱勇(), 黄文彬, 王军
北京大学信息管理系 北京 100871
Analyzing Private College Students’ Online Lifestyle with Web-logs
Chen Runwen, Qiu Yong(), Huang Wenbin, Wang Jun
Department of Information Management, Peking University, Beijing 100871, China
全文: PDF (1403 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】研究基于民办高校大学生的导航页面使用情况, 揭示民办高校大学生典型的网络生活类型及特点。【方法】通过对导航页面设置数据采集点, 获得民办高校大学生的点击行为和搜索行为数据, 进行统一建模和特征提取后, 利用聚类算法将其细分为几个有代表性的群体。【结果】将民办高校大学生划分为6个典型群体, 分别为重度视频型、昼学夜玩型、搜索追剧型、沉迷直播型、劳逸结合型、勤奋学习型; 民办高校大学生主要用网络看视频与直播, 仅有小部分学生利用互联网进行学习。【局限】PC端导航页面行为仅能反映大学生网络生活的一部分, 且数据的时间跨度为两个月, 不能反映学生在期初和期末的行为差异。【结论】本研究实现了民办高校大学生群体中典型网络生活类型的识别, 这将有助于民办高校大学生特点和行为规律的发现和总结, 为提升高校服务管理水平提供参考建议。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈润文
邱勇
黄文彬
王军
关键词 民办高校日志挖掘聚类分析    
Abstract

[Objective] This study reveals the private colleage students’ typical online life styles based on their usage of a navigational Web portal. [Methods] First, we collected the click and search data of the navigation page specifically designed for students. Then, we modeled the data and applied the K-means cluster algorithm to categorize the student behaviors. [Results] We found six major behaviors among private college students. However, these students mainly use the Web to watch videos, while only a small number of students use the Web to learn. [Limitations] The size and dimensions of the data need to be expanded. [Conclusions] This study identifies typical online life styles of private college students, which could help schools improve their administraion and services.

Key wordsPrivate College    Log Analysis    Cluster Analysis
收稿日期: 2017-05-31      出版日期: 2017-07-26
ZTFLH:  G35 TP311  
引用本文:   
陈润文, 邱勇, 黄文彬, 王军. 基于日志分析的民办高校大学生网络生活类型研究[J]. 数据分析与知识发现, 2017, 1(8): 31-38.
Chen Runwen,Qiu Yong,Huang Wenbin,Wang Jun. Analyzing Private College Students’ Online Lifestyle with Web-logs. Data Analysis and Knowledge Discovery, 2017, 1(8): 31-38.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0511      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I8/31
  用户上网偏好模型
  大学生网址导航页面
点击 搜索
字段 标签 字段 标签
downDate 日志日期 downDate 日志日期
time 时间 time 时间
UID 用户ID UID 用户ID
URL 点击的网址 engine 搜索引擎
isHot 是否为热门 word 检索词
loginTime 登录时间 loginTime 登录时间
prov 省份 prov 省份
city 城市 city 城市
  日志数据结构
  各小时用户日志数量
  用户日志数量分布(对数坐标)
  类目体系框架
UID type theme hour
031101846031@campus 点击 消费 11
031101846031@campus 搜索 学习 11
031101846031@campus 搜索 学习 11
031101846031@campus 搜索 学习 13
031101846031@campus 点击 视频 12
031101846031@campus 点击 视频 13
031101846031@campus 点击 视频 13
031101846031@campus 点击 学习 16
…… …… …… ……
  用户行为统一表示样例
用户ID 操作偏好 客户端使用量
点击 搜索 条数 上午 中午 下午 晚餐 晚间 夜间
031101846031 0.70 0.30 0.00 0.25 0.05 0.40 0.00 0.15 0.15
031102180309 1.00 0.00 0.09 0.29 0.14 0.14 0.29 0.14 0.00
31102195106 0.11 0.89 0.22 0.04 0.02 0.45 0.00 0.04 0.45
031102805624 0.85 0.15 0.00 0.10 0.15 0.30 0.10 0.15 0.20
31102814909 0.40 0.60 0.00 0.25 0.10 0.15 0.05 0.00 0.45
用户ID 内容偏好
工具 工作 社交 视频 消费 学习 学校 游戏 娱乐 直播 资讯
031101846031 0.00 0.00 0.00 0.50 0.05 0.30 0.00 0.05 0.10 0.00 0.00
031102180309 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00
31102195106 0.00 0.00 0.00 0.36 0.02 0.38 0.00 0.00 0.09 0.02 0.11
031102805624 0.00 0.00 0.15 0.00 0.00 0.00 0.00 0.00 0.05 0.80 0.00
31102814909 0.00 0.00 0.00 0.75 0.05 0.05 0.00 0.05 0.05 0.00 0.00
  用户网络行为特征表样例
  聚类结果-各类使用量及操作偏好
  聚类结果-各时段使用比例
  聚类结果-内容偏好
  典型用户群占比
[1] 孙竞, 熊旭. 2016年全国民办学校17.1万所在校学生突破4825万人 [EB/OL]. [2017-01-18]. .
[1] (Sun Jing, Xiong Xu. The Number of Private Colleges has Reached 171,000 by 2016, with More than 48.25 Million Students [EB/OL]. [2017-01-18].
[2] 戚良艳, 许月英. 上海民办高校学生闲暇生活调查与分析[J]. 浙江树人大学学报:人文社会科学版, 2010(4): 124-128.
[2] (Qi Liangyan, Xu Yueying.An Investigation and Analysis of Students’ Leisure Life in Private Colleges and Universities in Shanghai[J]. Journal of Zhejiang Shuren University: Humanities and Social Sciences, 2010(4): 124-128.)
[3] 朱云汉. 论民办高校大学生网络学习行为[J]. 中国成人教育, 2015(14): 136-137.
[3] (Zhu Yunhan.Behavior of Private College Students’ Online Learning[J]. China Adult Education, 2015(14): 136-137.)
[4] 林红. 民办与普通高校学生网络依赖状况的比较研究[J]. 青少年研究(山东省团校学报), 2008(6): 24-28.
doi: 10.3969/j.issn.1673-8950.2008.06.008
[4] (Lin Hong.A Comparative Study on the Internet Dependence of Private College Students[J]. Youth and Adolescence Studies, 2008(6): 24-28.)
doi: 10.3969/j.issn.1673-8950.2008.06.008
[5] 王继民, 彭波. 搜索引擎用户访问量模型[J]. 计算机工程与应用, 2004, 40(25): 9-11.
doi: 10.3321/j.issn:1002-8331.2004.25.003
[5] (Wang Jimin, Peng Bo.Modeling Quantity of Users/Access for Search Engine[J]. Computer Engineering and Applications, 2004, 40(25): 9-11.)
doi: 10.3321/j.issn:1002-8331.2004.25.003
[6] Srikant R, Agrawal R.Mining Quantitative Association Rules in Large Relational Tables[J]. ACM SIGMOD Record, 1996, 25(2): 1-12.
doi: 10.1145/233269.233311
[7] 王敏. 基于行为日志数据的MOOC学习者学习行为分析研究[D]. 上海: 华东师范大学, 2016.
[7] (Wang Min.Research on MOOC Learning Behavior Based on Behavior Log Data [D]. Shanghai: East China Normal University, 2016.)
[8] 张玉峰, 何超. 基于Web日志挖掘的网络动态竞争情报分析研究[J]. 情报理论与实践, 2011, 34(9): 51-53.
[8] (Zhang Yufeng, He Chao.Research on Dynamic Competitive Intelligence Analysis Based on Web Log Mining[J]. Information Studies: Theory & Application, 2011, 34(9): 51-53.)
[9] 张文君, 王军, 徐山川. 电商用户需求状态的聚类分析——以淘宝网女装为例[J]. 现代图书情报技术, 2015 (3): 67-74.
[9] (Zhang Wenjun, Wang Jun, Xu Shanchuan.Clustering Analysis of Demand State of E-commerce Users - Taking Taobao Women’s Clothing as an Example[J]. New Technology of Library and Information Service, 2015 (3): 67-74.)
[10] Prasad P, Malik L G.Generating Customer Profiles for Retail Stores Using Clustering Tech[J]. International Journal on Computer Science & Engineering, 2011, 3(6): 2506-2510.
[11] Moe W W.Buying, Searching, or Browsing: Differentiating Between Online Shoppers Using In-Store Navigational Clickstream[J]. Journal of Consumer Psychology, 2003, 13(1-2): 29-39.
doi: 10.1207/S15327663JCP13-1&2_03
[12] 于亚秀. 基于Web日志挖掘的个性化服务研究[D]. 上海: 华东师范大学, 2009.
[12] (Yu Yaxiu.Research on Personalized Service Based on Web Usage Mining [D]. Shanghai: East China Normal University, 2009.)
[13] Jain A K.Data Clustering: 50 Years Beyond K-means[J]. Pattern Recognition Letters, 2010, 31(8): 651-666.
doi: 10.1016/j.patrec.2009.09.011
[1] 吴江,赵颖慧,高嘉慧. 医疗舆情事件的微博意见领袖识别与分析研究*[J]. 数据分析与知识发现, 2019, 3(4): 53-62.
[2] 牟冬梅,金姗,琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[3] 范馨月,崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[4] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[5] 何跃,王爱欣,丰月,王莉. 基于关联规则的门诊药房布局优化[J]. 数据分析与知识发现, 2018, 2(1): 99-108.
[6] 王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[7] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[8] 李纲, 叶光辉, 张岩. “小众专家”特征识别——基于MetaFilter的实证分析[J]. 现代图书情报技术, 2015, 31(6): 71-77.
[9] 谷威, 李超凡, 王洪俊, 肖诗斌, 施水才. 专利检索日志的同义词获取[J]. 现代图书情报技术, 2015, 31(2): 24-30.
[10] 强韶华, 吴鹏. 地域性差异视角下的网站分类用户心智模型空间性研究[J]. 现代图书情报技术, 2015, 31(11): 68-74.
[11] 李北伟, 徐越, 单既民, 魏昌龙, 张鑫琦, 富金鑫. 中国购物网站网络信息生态链研究[J]. 现代图书情报技术, 2013, 29(9): 67-73.
[12] 王继民, 李雷明子, 张鹏. 搜索引擎日志挖掘领域的论文合著网络分析[J]. 现代图书情报技术, 2011, 27(4): 58-63.
[13] 朱玲, 聂华. 通过日志挖掘研究图书馆资源发现服务用户的搜索行为[J]. 现代图书情报技术, 2011, 27(12): 74-78.
[14] 滕广青,毕强. 基于概念格的数字图书馆用户市场细分* ——数字图书馆用户的概念聚类分析[J]. 现代图书情报技术, 2010, 26(2): 7-11.
[15] 赖茂生,屈鹏. 搜索引擎查询日志的词性标注和挖掘研究[J]. 现代图书情报技术, 2009, 25(4): 50-56.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn