数据分析与知识发现, 2019, 3(6): 1-11
doi: 10.11925/infotech.2096-3467.2018.0767
网络地图用户访问会话时空特征分析*
Spatio-Temporal Characteristics of WMTS Access Sessions
李茹1, 李锐1,2, 蒋捷3,, 吴华意1,2

摘要:

目的】探究会话尺度下群体用户对WMTS访问的时空统计特征。【方法】对用户访问会话进行识别并设计有效算法提取用户访问目标。从日访问会话数、会话请求数、会话时长、瓦片访问速度4个维度, 深入探究用户访问的时间属性分布特征; 从省份、城市及距离三个维度, 探究用户所在地与访问目标之间的空间关系。【结果】WMTS访问行为具有幂律特征, 大多数用户的访问简洁高效, 有明确访问需求; 信息化建设程度高的省份, 其用户访问更为集中和深入; 在访问内容的空间分布上, 以同省、同城访问为主, 约30%的访问目标集中于用户所在城市中心点43千米范围内。【局限】研究对象为访问WMTS频次较多的用户, 普适性有待验证。【结论】从会话尺度描述WMTS访问会话特征, 有利于深入理解用户地理信息需求的时空分布特征。

关键词: WMTS ; 会话识别 ; 访问中心 ; 空间距离分类 ; 时空统计与分析

Abstract:

[Objective] This paper explores the spatio-temporal statistical characteristics of users’ visits to Web Map Tile Service (WMTS). [Methods] First, we identified the WMTS sessions and extracted the targets based on an efficient algorithm. Then, we studied the temporal features of user access sessions with daily session numbers, requests and duration of each session, as well as assess speed per tile. For spatial characteristics, we described the relationship between users’ locations and their access targets, such as provinces, cities, and distances. [Results] The users’ WMTS sessions possessed power-law distribution, and most of them were brief and efficient with clear objectives. Users from provinces with better information infrastructure tended to have more centralized and deeper WMTS sessions. Most of the WMTS sessions searched for targets within the same province or city, while 30% of the targets were within 43 km of the users’ city centers. [Limitations] The data was collected from users who access WMTS frequently, which needs to be expanded. [Conclusions] Describing users’ access characteristics from session granularity, helps us understand users’ geographical information needs.

Key words: WMTS ; Session Identification ; Access Target ; Spatial Distance Classification ; Spatiotemporal Statistics and Analysis

1 引 言

随着基于位置服务的兴起与发展, WMTS (Web Map Tile Service)在人们的日常生活中扮演越来越重要的角色, 服务器端存储了海量用户访问的日志数据。分析用户访问日志数据, 挖掘群体用户访问时空模式, 是研究用户访问行为、分析其地理信息需求特征的重要方式, 能够为系统性能优化、用户体验流畅性提升提供非常重要的指引[1]

早期研究多从地理信息访问的整体特征出发, 探究用户访问内容的社会性与聚集性特征[2,3,4,5]。通过研究地理信息的访问频率分布, 发现地理信息的访问请求服从社会学中的幂律分布[2,3]。王浩等根据数字地球系统中4个不同采集时间尺度的服务器日志, 统计其访问瓦片请求次数排名, 指出访问请求具体服从幂律分布中的Zipf-like分布[4]。与此同时, 由于地图瓦片具有时空属性, 有学者指出必须兼顾考虑访问行为的时空特征, 建立时空访问模型, 定量化描述用户访问行为的时空分布模式[6,7]。吴华意等建立公共地图服务中群体用户访问行为的时序分布模型, 量化群体用户并发访问的多峰值变强度特征, 并提出一种简单有效的用户访问负载预测方法[6]。用户访问具有空间聚集性且与时间密切相关[8], 通过构建泊松回归模型、高斯混合模型等模型, 量化表达瓦片访问时空关系, 有利于进一步改善服务器响应策略, 提升地理信息的服务水平[7,8,9,10]。上述研究以宏观的群体用户访问为研究内容, 探究用户访问的整体性规律。

另有学者从微观的个体用户访问内容出发, 借鉴网络日志挖掘的概念和方法, 探究地理信息访问会话的时空分布特征[11]。早期研究成果主要基于浏览器端访问日志数据, 探究通用搜索引擎中空间查询的分布特征, 从查询关键词分类、位置表述、查询词修改、用户查询地与所在地之间距离等方面, 分析用户对地理信息的需求特征[12,13,14]。Jones等发现, 对于约20%的查询, 其访问目标与用户所在地距离不超过50千米[13]。Takahashi等应用关联规则挖掘和序列模式挖掘技术研究包含地点名称的查询日志, 指出用户查询偏好受位置影响, 还探究了用户进行地理信息查询的常用关键字以及频繁出现的访问位置[15]。在地理信息访问会话的时空分布上, Xiao等通过研究用户访问会话中的查询关键词、访问目标、用户所在地的分布特征, 以及两两之间联系, 发现相比于通用搜索引擎和移动搜索引擎, 用户进行地理信息查询时使用的关键词更长、修改频次更快、访问页面数量更少; 从访问目标的空间分布来看, 80%访问会话的目的地位置变化在50千米范围内; 从访问目的地和用户所在地的空间分布来看, 均遵循幂律分布的特征[16]。陈迪等基于一家大型在线地图应用的PC端用户搜索日志, 在宏观上分析用户搜索行为的时间特性并进一步研究跨地域搜索行为, 验证了在线地图搜索行为对出行的前瞻特性; 利用该前瞻性, 描述城市间人口流动模式[17]。上述研究关注个体用户进行地理查询的时空分布特征, 强调海量用户呈现的共性特征。

综上, 在WMTS用户访问模式的研究中, 对时间分布特征的研究已较为深入, 时空一体化特征研究多从群体用户出发, 探究用户访问的整体性规律; 关于空间分布特征的研究, 还未顾及不同瓦片图层所含地理信息的差异性。本文以微观的用户访问会话为切入点, 通过对群体用户访问内容进行会话识别, 从个体访问行为探究用户访问的时空分布特征; 设计一种基于WMTS数据组织方式和访问频次的访问中心(Access Target, AT)识别算法, 提取用户访问目标, 深入探究不同用户的地理信息需求特征; 借用多种时空指标, 从各个方面定量化分析用户访问行为在时间与空间上的分布特征。

2 WMTS用户会话识别与访问中心点提取方法
2.1 WMTS用户会话识别

用户识别指从网络日志记录中识别相应的用户, 是建立用户与日志之间一对一或者一对多关系的重要步骤。一般来说, 可以基于访问IP地址、Cookie标志或者用户注册信息, 以提高用户识别的准确性[18]。然而, 在现实生活中, 考虑用户隐私数据获取的难度及用户隐私保护的必要性, 最常用的方法是通过IP地址进行用户识别[19,20,21,22]。本研究采用基于IP的用户识别方法, 获得用户列表, 建立每个用户与访问内容之间的关联。具体而言, 每个用户对应一个访问记录表, 里面存放用户在研究时间段内的所有访问记录, 为后续进行会话识别做好准备。

会话是指用户在一次访问中, 从进入站点到离开站点过程中产生的一系列活动。在较大的时间跨度内, 用户可能产生多次访问, 会话识别的目的是将用户的多次请求划分到不同的访问中[23], 最常用的方法为基于时间阈值的会话识别[22,23,24,25,26]。本文对用户访问请求进行时间序列分割, 再结合时间阈值进行会话识别, 具体过程描述如下。

(1) 依据选定的时间粒度, 将用户ui的访问请求划分到不同的N个时间段内, 形成按时间排序的访问子行为, 得到非空访问序列, 如公式(1)所示。

${{Q}_{i}}({{T}_{i}})={{\{{{q}_{i}}(t_{i}^{1}),\cdot \cdot \cdot ,{{q}_{i}}(t_{i}^{n}),\cdot \cdot \cdot ,{{q}_{i}}(t_{i}^{N})\}}_{{}}}n=1,2,\cdot \cdot \cdot ,N$ (1)

其中, ${{Q}_{i}}({{T}_{i}})$表示用户ui在时间段Ti内的所有访问内容; ${{q}_{i}}(t_{i}^{N})$为用户ui在时间$t_{i}^{n}$内的访问内容。用户访问行为随时间变化, 某些时间内用户进行访问操作, WMTS响应用户新提交的访问请求; 而有些时候, 用户因进行信息浏览、记录、交谈等行为, 不再对服务器提交新的访问请求。

(2) 相邻访问内容${{q}_{i}}(t_{i}^{n}),{{q}_{i}}(t_{i}^{n+1})$之间的时间差可以表示如公式(2)所示。

$\Delta t=|t_{i}^{n}-t_{i}^{n+1}{{|}_{{}}}n=1,2,\cdot \cdot \cdot ,N$ (2)

当$\Delta t$超过设定的时间阈值$\Delta {{t}_{0}}$时, 认为当前两个访问行为分属ui的不同会话。据此将用户在一天之内的访问记录分割成M个不同的会话(M<N), 表达形式如公式(3)所示。

$\begin{align} & {{Q}_{i}}({{T}_{i}})=\{S_{i}^{1}(T_{i}^{1}),\cdot \cdot \cdot ,S_{i}^{m}(T_{i}^{m}),\cdot \cdot \cdot ,S_{i}^{M}(T_{i}^{M}) \\ & m=\text{1},\text{2},\cdot \cdot \cdot ,M \\ \end{align}$ (3)

其中, m为该用户访问会话编号, $S_{i}^{m}(T_{i}^{m})$ $(m=\text{1},\text{2},\cdot \cdot \cdot ,M)$为用户ui在时间段$T_{i}^{m}$内进行的第m个会话的访问内容。$\Delta {{t}_{0}}$的选取方法将在3.1节具体给出。通过上述方法, 将用户访问记录分割成不 同的会话, 并在此基础上进行后续时空分布模式的研究。

2.2 用户访问中心提取

在WMTS访问会话中, 针对用户产生的不同访问操作, 服务器端将返回不同图层的地图瓦片数据。为准确识别出用户访问中心(AT), 本文设计了一种基于空间连续性的用户访问中心识别方法。该方法的主要思想是: 位于相同图层的瓦片$til{{e}_{a}}$和$til{{e}_{b}}$, 若$til{{e}_{a}}$与$til{{e}_{b}}$的距离在经纬度方向上均不超过两个瓦片单元, 则认为瓦片$til{{e}_{b}}$处于瓦片$til{{e}_{a}}$的空间连续范围内。瓦片空间连续范围示意图如图1所示, 以瓦片$til{{e}_{a}}$为中心, 略大于4个瓦片单元为边长的正方形范围是瓦片$til{{e}_{a}}$的空间连续范围(绿色区域), 所有落入其中的瓦片均被认为与瓦片$til{{e}_{a}}$空间连续。

图1 瓦片空间连续范围示意图

用户访问中心的识别过程包含以下步骤:

(1) 将用户ui在当前会话中的访问请求(以r表示)按时间排序: $S_{i}^{m}(T_{i}^{m})=\{{{r}_{1}},{{r}_{2}},\cdot \cdot \cdot ,{{r}_{{{k}_{m}}}}\}$, 其中m为当前会话编号, km为当前会话中的访问请求总数;

(2) 统计用户访问瓦片图层, 设最高图层为${{l}_{\max }}$, 提取出图层为${{l}_{\max }}$的访问记录, 存储到集合S0中;

(3) 取S0中第一条记录, 其瓦片行列号记作种子坐标(${{X}_{0}},{{Y}_{0}}$), 将其存储在当前访问中心集合${{S}_{AOI}}$中;

(4) 由种子坐标计算其空间连续范围, 计算方法如公式(4)所示, 统计${{S}_{0}}$中落入当前空间连续范围的瓦片, 将其从${{S}_{0}}$转移到${{S}_{AOI}}$中;

(5) 根据步骤(4)中的规则, 利用新落入${{S}_{AOI}}$的瓦片, 计算其空间连续范围, 探测是否有新的瓦片与其空间相连, 重复该步骤直至不再有新的瓦片落入${{S}_{AOI}}$; 计算${{S}_{AOI}}$中所有点的经纬度平均值, 作为当前访问中心坐标;

(6) 判断${{S}_{0}}$是否为空, 若为空, 则当前会话访问中心的提取工作结束; 否则, 利用更新后的${{S}_{0}}$, 重复步骤(3)-步骤(5)。

$\left[ \begin{matrix} {{X}_{\min }} & {{X}_{\max }} \\ {{Y}_{\min }} & {{Y}_{\max }} \\\end{matrix} \right]=\left[ \begin{matrix} {{X}_{0}}-2 & {{X}_{0}}+2 \\ {{Y}_{0}}-2 & {{Y}_{0}}+2 \\\end{matrix} \right]$ (4)

用户访问中心提取过程示例如图2所示, 要提取当前会话中的用户访问中心, 首先选取编号为1的瓦片, 计算其空间连续范围, 发现瓦片2-9在其范围内; 根据瓦片2-9获得新的空间连续范围, 瓦片10-12在其范围内; 根据瓦片10-12获得新的空间连续范围, 不再有新的瓦片落入其中, 当前访问中心的识别工作结束, 计算所有落入瓦片的经纬度平均值, 作为当前访问中心的坐标。

图2 用户访问中心提取过程示例

2.3 用户所在地与访问中心空间距离分类

服从幂律分布的数据具有以下特征: 大量低值存在于头部而少量高值存在于尾部[27]。通过首尾分割法, 可以更好地描述数据分层情况, 解释整体数据分布的复杂性[27,28,29]。传统首尾分割分类方法侧重于对“尾部”数据的层层划分, 即不断提取平均值以上的观测值[29]; 本研究旨在提取用户访问的空间范围, 侧重于空间距离范围内AT的概率分布, 需要对访问距离小于均值、但数量占比超过50%的“头部”数据进行层层划分。改进后的首尾分割法将访问距离的均值作为阈值, 对所有数据进行分割, 若均值以下的观测所占比例超过50%, 则继续对均值以内的访问距离进行循环分割, 直到均值以内的数量占比小于50%。计算方法如公 式(5)-公式(6)所示。

$mea{{n}_{H}}=\frac{\mathop{\sum }_{h=1}^{{{N}_{H}}}di{{s}_{hH}}}{{{N}_{H}}}$ (5)

$hea{{d}_{H}}=\frac{\mathop{\sum }_{i=1}^{{{N}_{H}}}(di{{s}_{hH}}<mea{{n}_{H}})}{{{N}_{H}}}$ (6)

其中, H为当前循环的次数, NH为当前循环中AT总个数, $di{{s}_{hH}}$表示第H次循环中, 第h个AT与其访问用户所在地之间的访问距离, $mea{{n}_{H}}$为第H轮访问距离的均值, $hea{{d}_{H}}$为第h轮中小于均值的AT个数在第H轮总数中所占的比值。通过上述分割方法, 可以获得各访问距离的数量分布及在总体中的占比情况。

3 WMTS访问会话的时空特征研究
3.1 数据准备及数据预处理

(1) 数据介绍

天地图是中国国家测绘地理信息局(现已并入国家自然资源部)建设的地理信息综合服务网站, 以门户网站和服务接口两种形式向公众、企业、专业部门、政府部门提供地理信息服务。当用户访问WMTS时, 服务器首先根据用户所在位置以及当前浏览器窗口的大小, 自动调取用户所在城市或省份地图瓦片, 铺满用户访问的浏览器界面。用户在网络地图界面进行平移、缩放、地图类型变更等操作, 都将对服务器产生新的访问请求。用户在一次访问行为中发出的请求数与浏览器窗口大小以及访问瓦片类型(底图、注记)有关。本文以天地图服务器端的用户访问日志为研究数据源, 选用2017年1月8日-2017年1月31日时间段内的访问记录。该日志以秒为最小时间粒度, 记录下用户访问的详细信息, 包含IP、日期与时间、请求方法、访问内容、响应状态、字节数、来源网址等信息。

(2) 访问日志数据预处理

数据预处理的主要目的有三个:

①去除与本研究无关的字段和存在关键信息缺失的记录;

②提取有用信息、进行格式化存储, 如IP、时间, 、瓦片行列号、图层、类型等;

③尽可能消除机器用户对用户访问行为研究的影响。

本研究利用前人研究成果, 基于对天地图日志数据的统计分析, 选定合适的数据预处理阈值, 进行会话识别与筛选工作[7,8]

对2017年1月8日-2017年1月31日内访问的所有IP进行地址解析, 获得所有国内访问用户列表。统计每个会话的瓦片请求量, 得到各请求量的频次分布, 如图3(a)所示。该分布在访问量为50处出现明显断层, 且随着请求量不断增大, 用户量不断减小。去除对当日总访问量的贡献超过10万次(对日总访问量贡献率为0.05%)或小于50次的IP访问记录, 以避免机器用户和网页链接两种无意识访问行为对研究结果造成影响[16]。在后续研究中, 本文进一步利用会话特征做更严格的筛选。

图3 访问量及访问天数分布情况

同时, 剔除访问天数过少的用户, 以减小偶然性访问带来的影响。统计用户ui在2017年1月8日-2017年1月31日内访问的总天数, 存储为<ui,Di>。其中, Di为用户ui的总访问天数。本研究探讨中高访问频率用户进行网络地图访问的时空特征, 需去除访问天数过少的用户, 以总研究天数的10%为最小阈值。进行用户筛选后, 得到满足条件的各访问频度用户量分布如图3(b)所示。可知, 用户对WMTS的需求强度具有较大差异性: 少量用户存在很强的地理信息需求, 对WMTS基本做到每日访问; 多数用户访问WMTS的频度较低。这是因为WMTS访问频度和用户对某个区域的熟悉程度成反比。大部分用户的生活、工作区域相对固定, 对周围环境很熟悉, 访问WMTS主要是由于周末或假期出游; 少量用户由于工作性质或其他原因, 需要经常访问WMTS以获取地理信息。

(3) 访问会话筛选

用户筛选工作完成后, 需要进行会话识别。为选取会话识别的最佳时间阈值, 以2秒为最小时间间隔, 统计所有用户访问记录相邻操作时间间隔的分布情况, 绘制其累计分布概率如图4所示。其分布函数如公式(7)所示。

$P\text{(}x\le {{x}_{A}}\text{)}=\sum\nolimits_{0}^{A}{p({{x}_{a}})}$ (7)

图4 相邻操作时间间隔分布

其中, xa表示X轴上用户相邻操作之间的时间间隔, 单位为秒, 且有x0=2; p(xa)表示该时间间隔的分布概率。由图4可知, 在600秒处, 时间间隔的累计概率达到97%, 且于600秒后呈平稳状态, 因此选取10分钟作为会话识别的时间阈值。若用户两个相邻访问的请求时间差超过10分钟, 则这两个请求将被划分到不同的会话之中。

3.2 基于会话的用户访问时间属性特征

选取4个指标描述用户访问的时间属性特征, 分别是: 日访问会话数、会话持续时长、会话中访问请求数以及会话中瓦片访问速度, 存储为<${{u}_{i}}$,$d$,${{M}_{i}}$, $s{{t}^{m}}$,$s{{c}^{m}}$,$s{{p}^{m}}$>6元组的形式(d∈[1,2,···,${{D}_{i}}$], m∈[1,2,···, ${{M}_{i}}$])。其中, d表示用户${{u}_{i}}$当前访问日期, ${{M}_{i}}$为用户${{u}_{i}}$在第d天内的访问会话数。$s{{t}^{m}}$表示会话m持续时长, $s{{c}^{m}}$为会话m中访问请求数, $s{{p}^{m}}$表示会话m中瓦片的平均访问速度, 三者均为向量。$s{{p}^{m}}$实际表示在当前用户访问会话中, 平均每个瓦片被访问的时间, 计算方式如公式(8)所示。这样处理是为了避免$s{{t}^{m}}$为0的情况。

$s{{p}^{m}}=\frac{s{{t}^{m}}}{s{{c}^{m}}}$ (8)

对共计837 005个会话进行统计分析, 用户日访问会话数、会话持续时长、会话中访问请求数以及访问速度的分布情况如图5所示, 分析可得以下结论。

图5 用户日访问会话数、会话持续时长、会话中访问请求数以及访问速度的分布情况

(1) 图5(a)表明, 用户在一天之内访问较为集中, 会话数量有限。10次以内的访问会话数量集中了超过90%的用户; 约80%的用户日访问会话数量不超过5个, 且有60%的用户日会话数量仅为1-2次; 随着日访问会话量的增大, 用户量的累计概率增长速度迅速下降, 说明日访问会话数量较多的用户所占比例很小。总体而言, 大部分用户进行WMTS访问时, 具有较强的目的性; 多数用户通过1-2次访问满足自己的地理信息需求, 少数用户存在多次访问。在后续关于会话空间分布特征研究中, 进一步探索用户访问会话在空间的转移特征。

(2) 图5(b)表明, 用户进行WMTS访问具有短时高效特征。绝大部分访问会话的持续时间不超过60分钟; 少量会话持续时间异常, 甚至达到一天。去除访问时长超过60分钟的会话, 进行会话中访问瓦片数量和访问速度的研究。

(3) 图5(c)从请求数量的角度, 同样论证了用户访问简洁高效的特征。绝大部分会话的访问请求数集中在50-1 000次; 少量会话具有很高的访问强度, 在单次会话中访问大量瓦片。

(4) 图5(d)表明, 用户对地图瓦片的访问速度分布差异性较大。在绝大多数会话中, 单个瓦片平均访问时长不超过10秒, 会话累计概率达到94%, 且超过85%集中在0.1-5秒范围内。访问速度受多种因素影响, 如网速快慢、用户对WMTS操作的熟悉程度、用户对查询位置的熟悉程度和需求情况等。此外, 用户在访问过程中因进行其他活动而暂停访问, 如记录、交谈、暂时离开等, 都将使时间变量高于实际值, 即公式(8)中分子变大。导致部分会话中单个瓦片平均访问时长较大, 甚至达到20秒。

与此同时, 观测到图5(b)-图5(d)的图形具有明显的“胖尾”特征, 且幂指数分布在1-3之间, 与人类行为动力学研究中关于网页浏览、邮件发送等行为的幂指数相近[30], 说明用户WMTS访问行为具有幂律特征, 大多数用户的访问行为短时简洁高效, 具有明显的需求导向特征。

将上述时间属性特征与用户所在省份进行关联, 获得全国34个省级行政区域的用户访问会话特征差异分布情况, 如图6所示。

图6 用户访问会话的省际差异分布

3.3 基于会话的用户访问内容的空间分布特征

在WMTS中, 瓦片图层越高, 所含地理信息越丰富细致, 更能体现用户的访问需求。利用2.2节中设计的AT识别算法, 获得用户访问中心, 共计256 420个。某用户当前访问会话内容在地图上的分布如图7中红色点所示(颜色由浅到深代表AT随时间转移)。本文从省份、城市、距离三个角度出发, 探究用户所在地与访问中心之间的空间关系。

图7 用户访问中心转移示例

(1) 省份关系: 将用户和AT的省份关系投射到一张34×34的表格中, 累计共有1 156种访问组合。横坐标表示用户所在省份, 纵坐标表示AT所在省份。统计每种访问组合在24天之内访问AT数量的平均值, 对其进行归一化处理, 并以点的大小可视化展现AT数量均值的大小, 如图8所示。可知, 对角线上的点远远大于其他位置的点, 说明用户访问以省内访问为主, 且广西、浙江、山东、四川、广东、辽宁、江苏等省份位列前茅。在非省内访问中, 北京-广东、江苏-湖南、北京-河北的访问组合所占比例较大。

图8 用户所在地与访问中心省份关系

(2) 城市关系: 由于全国城市众多(共计334个地级行政区划(①数据来源: http://xzqh.mca.gov.cn/statistics/2017.html.)), 用户所在地与访问中心的组合情况过万。本文重点研究同城访问组合在所有组合中的排名情况, 记录结果如表1所示。可知, 同城访问AT数量较大、排名靠前, 且随着排名逐渐下降, 同城访问所占比例逐渐下降, 说明同城访问是主要的访问形式。

表1 用户所在城市与访问城市同城分布情况

(3) 距离关系: 计算每个AT与其访问用户所在位置(用户所在城市中心点)的大圆航线距离, 利用2.3节基于首尾分割法的用户所在地与访问中心空间距离分类方法, 可得访问距离分类及占比情况如表2所示。可以发现, 超过57%的用户, 访问中心的位置在其所在位置的112千米范围内, 说明大部分用户需求集中在其所在城市周边, 验证了城市关系研究的结论; 少量用户对远距离的区域进行访问。由于在第5次划分中, 尾部数量占比小于50%, 所以划分到第4次结束。距离分布的具体情况如图9所示, 图中y轴的概率为当前区间在所有AT中所占的比例。结合表2图9可以发现, 30%用户所在地与AT距离小, 集中在城市中心点43千米范围内。

表2 用户所在地与访问中心距离分布的首尾分割统计结果

图9 用户所在地与AT距离分布

4 结 语

本文基于天地图服务器端用户访问日志数据, 统计分析群体活动在会话粒度下的差异特征, 探索网络地图用户访问行为的时空分布模式, 得到以下结论:

(1) 用户访问时间属性特征: WMTS访问行为具有幂律特征, 大多数用户的访问简洁高效, 有明确的信息需求; 受工作、生活模式影响, 多数用户进行WMTS访问频度有限、日访问会话数量多集中在10次以内, 少量用户对地理信息的需求强烈, 访问频度高、请求量大。访问速度受多种因素影响, 存在较大的分布差异。

(2) 时间属性特征的空间分布差异: 信息化程度较高的东南及南部省份, 对地理信息的需求相对稳定, 单次会话持续时间长、请求量大、访问更为深入; 信息化程度相对较差的西北内陆省份, 日人均会话数量多、单次会话持续时间短、请求量小、访问深度较浅。

(3) 用户访问空间属性特征: 用户访问以同省访问、同城访问为主, 约30%的用户访问目标集中在所在城市约43千米范围内, 约43%的用户访问目标与所在城市中心点的距离超过112千米。

通过对WMTS访问进行用户和会话识别, 将群体访问细化到具体用户行为, 有助于了解微观尺度下用户访问行为的时空分布模式, 从而更深入地理解用户地理信息需求的时空分布特征。与此同时, 用户进行地理信息访问具有长期性特征, 今后将结合访问行为的时空分布特征, 进一步提升用户识别和会话识别精度, 并通过对用户访问内容进行长时间序列观测, 探究用户访问行为的动力机制。

作者贡献声明

李茹: 数据清洗、分析, 进行实验与结果分析, 论文起草;

李锐: 提出研究思路, 设计研究方案, 提出论文修改意见;

蒋捷: 提供数据支撑, 给出数据分析意见, 提出论文修改意见;

吴华意: 设计论文框架, 修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: liru_0222@whu.edu.cn。

[1] 李茹, 李锐, 吴华意, 蒋捷. 天地图服务器端用户访问日志.log. 天地图公共服务平台用户访问日志记录.

参考文献

[1] Li R, Guo R, Xu Z, et al.A Prefetching Model Based on Access Popularity for Geospatial Data in a Cluster-Based Caching System[J]. International Journal of Geographical Information Science, 2012, 26(10): 1831-1844.
[本文引用:1]
[2] Talagala N, Asami S, Patterson D, et al.The Art of Massive Storage: A Web Image Archive[J]. Computer, 2000, 33(11): 22-28.
[本文引用:2]
[3] Fisher D.Hotmap: Looking at Geographical Attention[J]. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(6): 1184-1191.
[本文引用:2]
[4] 王浩, 潘少明, 彭敏, . 数字地球中影像数据的Zipf-like访问分布及应用分析[J]. 武汉大学学报: 信息科学版, 2010, 35(3): 356-359.
[本文引用:2]
(Wang Hao, Pan Shaoming, Peng Min, et al.Zipf-like Distribution and Its Application to Image Data Tile Request in Digital Earth[J]. Geomatics and Information Science of Wuhan University, 2010, 35(3): 356-359.)
[5] Kwan M.GIS Methods in Time-Geographic Research: Geocomputation and Geovisualization of Human Activity Patterns[J]. Urban Planning International, 2010, 86(4): 267-280.
[本文引用:1]
[6] 吴华意, 李锐, 周振, . 公共地图服务的群体用户访问行为时序特征模型及预测[J]. 武汉大学学报: 信息科学版, 2015, 40(10): 1279-1286.
[本文引用:2]
(Wu Huayi, Li Rui, Zhou Zhen, et al.Research and Prediction on Time-Sequence Characteristics of Group-User Access Behavior in Public Map Service[J]. Geomatics and Information Science of Wuhan University, 2015, 40(10): 1279-1286.)
[7] Li R, Fan J, Jiang J, et al.Spatiotemporal Correlation in WebGIS Group-User Intensive Access Patterns[J]. International Journal of Geographical Information Systems, 2017, 31(1): 36-55.
[本文引用:3]
[8] Li R, Fan J, Wu H, et al.Group-User Access Patterns and Tile Prefetching Based on a Time-Sequence Distribution in Cloud-Based GIS[J]. Computers, Environment and Urban Systems, 2018, 69: 17-27.
[本文引用:3]
[9] Pan S, Chong Y, Zhang H, et al.A Global User-Driven Model for Tile Prefetching in Web Geographical Information Systems[J]. PLoS One, 2017, 12(1): e0170195.
[本文引用:1]
[10] Wu D, Qiao R, Li Y.A Study on Location-Based Mobile Map Search Behavior[J]. Program Electronic Library and Information Systems, 2016, 50(3): 246-269.
[本文引用:1]
[11] Henrich A, Luedecke V.Characteristics of Geographic Information Needs[C]// Proceedings of the 4th ACM Workshop on Geographical Information Retrieval. ACM, 2007: 1-6.
[本文引用:1]
[12] Gan Q, Attenberg J, Markowetz A, et al.Analysis of Geographic Queries in a Search Engine Log[C]// Proceedings of the 1st International Workshop on Location and the Web. ACM, 2008: 49-56.
[本文引用:1]
[13] Jones R, Zhang W V, Rey B, et al.Geographic Intention and Modification in Web Search[J]. International Journal of Geographical Information Science, 2008, 22(3): 229-246.
[本文引用:2]
[14] Zhang W V, Rey B, Stipp E, et al.Geomodification in Query Rewriting[C]// Proceedings of the 3rd ACM Workshop on Geographic Information Retrieval. 2006.
[本文引用:1]
[15] Takahashi K, Pramudiono I, Kitsuregawa M.Geo-Word Centric Association Rule Mining[C]// Proceedings of the 6th International Conference on Mobile Data Management. ACM, 2005: 273-280.
[本文引用:1]
[16] Xiao X, Luo Q, Li Z, et al.A Large-Scale Study on Map Search Logs[J]. ACM Transactions on the Web, 2010, 4(3): 53-56.
[本文引用:2]
[17] 陈迪, 张鹏, 杨洁艳, . 在线地图服务日志的大数据分析[J]. 小型微型计算机系统, 2015, 36(1): 33-38.
[本文引用:1]
(Chen Di, Zhang Peng, Yang Jieyan, et al.Big Data Analysis of Web Map Service Log[J]. Journal of Chinese Computer Systems, 2015, 36(1): 33-38.)
[18] Grace L K J, Maheswari V, Nagamalai D. Analysis of Web Logs and Web User in Web Mining[J]. International Journal of Network Security & Its Applications, 2011, 3(1): 99-110.
[本文引用:1]
[19] Pamutha T, Chimphlee S, Kimpan C, et al.Data Preprocessing on Web Server Log Files for Mining Users Access Patterns[J]. International Journal of Research and Reviews in Wireless Communications, 2012, 2(2): 92-98.
[本文引用:1]
[20] 周爱武, 程博, 李孙长, . Web日志挖掘中的会话识别方法[J]. 计算机工程与设计, 2010, 31(5): 936-938.
[本文引用:1]
(Zhou Aiwu, Cheng Bo, Li Sunchang, et al.Method of Session Identification in Web Log Mining[J]. Computer Engineering and Design, 2010, 31(5): 936-938.)
[21] 张毅. Web日志挖掘中会话识别方法研究[J]. 计算机应用与软件, 2010, 27(6): 92-94.
[本文引用:1]
(Zhang Yi.On Method of Session Identification in Web Log Mining[J]. Computer Applications and Software, 2010, 27(6): 92-94.)
[22] 王末, 王卷乐. Web环境下地学数据共享用户行为模式分析[J]. 地球信息科学学报, 2016, 18(9): 1174-1183.
[本文引用:2]
(Wang Mo, Wang Juanle.A Study on the User Behavior of Geoscience Data Sharing Based on Web Usage Mining[J]. Journal of Geo-Information Science, 2016, 18(9): 1174-1183.)
[23] Zhu J, Chen J.Research on Method for Session Identification in Web Log Mining[J]. Computer Simulation, 2008, 44(8): 179-182.
[本文引用:2]
[24] Zhuang L, Kou Z, Zhang C.Session Identification Based on Time Interval in Web Log Mining[C] // Proceedings of the International Conference on Intelligent Information Processing, 2004, 163: 389-396.
[本文引用:1]
[25] Sengottuvelan P, Lokeshkumar R, Gopalakrishnan T.An Improved Session Identification Approach in Web Log Mining for Web Personalization[J]. Journal of Internet Technology, 2017, 18(4): 723-730.
[本文引用:1]
[26] Jiang Y, Li Y, Yang C, et al. Reconstructing Sessions from Data Discovery and Access Logs to Build a Semantic Knowledge Base for Improving Data Discovery[J]. International Journal of Geo-Information, 2016, 5(5): Article No.54.
[本文引用:1]
[27] 刘钊, 谢美慧, 田琨, . 基于协同Kriging插值和首尾分割法的PM2.5自然城市提取[J]. 清华大学学报: 自然科学版, 2017, 57(5): 555-560.
[本文引用:2]
(Liu Zhao, Xie Meihui, Tian Kun, et al.Classification of PM2.5 for Natural Cities Based on co-Kriging and Head/Tail Break Algorithms[J]. Journal of Tsinghua University: Science and Technology, 2017, 57(5): 555-560.)
[28] Jiang B.Head/Tail Breaks for Visualization of City Structure and Dynamics[J]. Cities, 2015, 43(3): 69-77.
[本文引用:1]
[29] Jiang B.Wholeness as a Hierarchical Graph to Capture the Nature of Space[J]. International Journal of Geographical Information Systems, 2015, 29(9): 1632-1648.
[本文引用:2]
[30] 周涛, 韩筱璞, 闫小勇, . 人类行为时空特性的统计力学[J]. 电子科技大学学报, 2013, 42(4): 481-540.
[本文引用:1]
(Zhou Tao, Han Xiaopu, Yan Xiaoyong, et al.Statistical Mechanics on Temporal and Spatial Activities of Human[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(4): 481-540.)
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
WMTS
会话识别
访问中心
空间距离分类
时空统计与分析

WMTS
Session Identification
Access Target
Spatial Distance Classifi...
Spatiotemporal Statistics...

作者
李茹
李锐
蒋捷
吴华意

Li Ru
Li Rui
Jiang Jie
Wu Huayi