【目的】探究会话尺度下群体用户对WMTS访问的时空统计特征。【方法】对用户访问会话进行识别并设计有效算法提取用户访问目标。从日访问会话数、会话请求数、会话时长、瓦片访问速度4个维度, 深入探究用户访问的时间属性分布特征; 从省份、城市及距离三个维度, 探究用户所在地与访问目标之间的空间关系。【结果】WMTS访问行为具有幂律特征, 大多数用户的访问简洁高效, 有明确访问需求; 信息化建设程度高的省份, 其用户访问更为集中和深入; 在访问内容的空间分布上, 以同省、同城访问为主, 约30%的访问目标集中于用户所在城市中心点43千米范围内。【局限】研究对象为访问WMTS频次较多的用户, 普适性有待验证。【结论】从会话尺度描述WMTS访问会话特征, 有利于深入理解用户地理信息需求的时空分布特征。
[Objective] This paper explores the spatio-temporal statistical characteristics of users’ visits to Web Map Tile Service (WMTS). [Methods] First, we identified the WMTS sessions and extracted the targets based on an efficient algorithm. Then, we studied the temporal features of user access sessions with daily session numbers, requests and duration of each session, as well as assess speed per tile. For spatial characteristics, we described the relationship between users’ locations and their access targets, such as provinces, cities, and distances. [Results] The users’ WMTS sessions possessed power-law distribution, and most of them were brief and efficient with clear objectives. Users from provinces with better information infrastructure tended to have more centralized and deeper WMTS sessions. Most of the WMTS sessions searched for targets within the same province or city, while 30% of the targets were within 43 km of the users’ city centers. [Limitations] The data was collected from users who access WMTS frequently, which needs to be expanded. [Conclusions] Describing users’ access characteristics from session granularity, helps us understand users’ geographical information needs.
随着基于位置服务的兴起与发展, WMTS (Web Map Tile Service)在人们的日常生活中扮演越来越重要的角色, 服务器端存储了海量用户访问的日志数据。分析用户访问日志数据, 挖掘群体用户访问时空模式, 是研究用户访问行为、分析其地理信息需求特征的重要方式, 能够为系统性能优化、用户体验流畅性提升提供非常重要的指引[1]。
早期研究多从地理信息访问的整体特征出发, 探究用户访问内容的社会性与聚集性特征[2,3,4,5]。通过研究地理信息的访问频率分布, 发现地理信息的访问请求服从社会学中的幂律分布[2,3]。王浩等根据数字地球系统中4个不同采集时间尺度的服务器日志, 统计其访问瓦片请求次数排名, 指出访问请求具体服从幂律分布中的Zipf-like分布[4]。与此同时, 由于地图瓦片具有时空属性, 有学者指出必须兼顾考虑访问行为的时空特征, 建立时空访问模型, 定量化描述用户访问行为的时空分布模式[6,7]。吴华意等建立公共地图服务中群体用户访问行为的时序分布模型, 量化群体用户并发访问的多峰值变强度特征, 并提出一种简单有效的用户访问负载预测方法[6]。用户访问具有空间聚集性且与时间密切相关[8], 通过构建泊松回归模型、高斯混合模型等模型, 量化表达瓦片访问时空关系, 有利于进一步改善服务器响应策略, 提升地理信息的服务水平[7,8,9,10]。上述研究以宏观的群体用户访问为研究内容, 探究用户访问的整体性规律。
另有学者从微观的个体用户访问内容出发, 借鉴网络日志挖掘的概念和方法, 探究地理信息访问会话的时空分布特征[11]。早期研究成果主要基于浏览器端访问日志数据, 探究通用搜索引擎中空间查询的分布特征, 从查询关键词分类、位置表述、查询词修改、用户查询地与所在地之间距离等方面, 分析用户对地理信息的需求特征[12,13,14]。Jones等发现, 对于约20%的查询, 其访问目标与用户所在地距离不超过50千米[13]。Takahashi等应用关联规则挖掘和序列模式挖掘技术研究包含地点名称的查询日志, 指出用户查询偏好受位置影响, 还探究了用户进行地理信息查询的常用关键字以及频繁出现的访问位置[15]。在地理信息访问会话的时空分布上, Xiao等通过研究用户访问会话中的查询关键词、访问目标、用户所在地的分布特征, 以及两两之间联系, 发现相比于通用搜索引擎和移动搜索引擎, 用户进行地理信息查询时使用的关键词更长、修改频次更快、访问页面数量更少; 从访问目标的空间分布来看, 80%访问会话的目的地位置变化在50千米范围内; 从访问目的地和用户所在地的空间分布来看, 均遵循幂律分布的特征[16]。陈迪等基于一家大型在线地图应用的PC端用户搜索日志, 在宏观上分析用户搜索行为的时间特性并进一步研究跨地域搜索行为, 验证了在线地图搜索行为对出行的前瞻特性; 利用该前瞻性, 描述城市间人口流动模式[17]。上述研究关注个体用户进行地理查询的时空分布特征, 强调海量用户呈现的共性特征。
综上, 在WMTS用户访问模式的研究中, 对时间分布特征的研究已较为深入, 时空一体化特征研究多从群体用户出发, 探究用户访问的整体性规律; 关于空间分布特征的研究, 还未顾及不同瓦片图层所含地理信息的差异性。本文以微观的用户访问会话为切入点, 通过对群体用户访问内容进行会话识别, 从个体访问行为探究用户访问的时空分布特征; 设计一种基于WMTS数据组织方式和访问频次的访问中心(Access Target, AT)识别算法, 提取用户访问目标, 深入探究不同用户的地理信息需求特征; 借用多种时空指标, 从各个方面定量化分析用户访问行为在时间与空间上的分布特征。
用户识别指从网络日志记录中识别相应的用户, 是建立用户与日志之间一对一或者一对多关系的重要步骤。一般来说, 可以基于访问IP地址、Cookie标志或者用户注册信息, 以提高用户识别的准确性[18]。然而, 在现实生活中, 考虑用户隐私数据获取的难度及用户隐私保护的必要性, 最常用的方法是通过IP地址进行用户识别[19,20,21,22]。本研究采用基于IP的用户识别方法, 获得用户列表, 建立每个用户与访问内容之间的关联。具体而言, 每个用户对应一个访问记录表, 里面存放用户在研究时间段内的所有访问记录, 为后续进行会话识别做好准备。
会话是指用户在一次访问中, 从进入站点到离开站点过程中产生的一系列活动。在较大的时间跨度内, 用户可能产生多次访问, 会话识别的目的是将用户的多次请求划分到不同的访问中[23], 最常用的方法为基于时间阈值的会话识别[22,23,24,25,26]。本文对用户访问请求进行时间序列分割, 再结合时间阈值进行会话识别, 具体过程描述如下。
(1) 依据选定的时间粒度, 将用户
${{Q}_{i}}({{T}_{i}})={{\{{{q}_{i}}(t_{i}^{1}),\cdot \cdot \cdot ,{{q}_{i}}(t_{i}^{n}),\cdot \cdot \cdot ,{{q}_{i}}(t_{i}^{N})\}}_{{}}}n=1,2,\cdot \cdot \cdot ,N$ (1)
其中, ${{Q}_{i}}({{T}_{i}})$表示用户
(2) 相邻访问内容${{q}_{i}}(t_{i}^{n}),{{q}_{i}}(t_{i}^{n+1})$之间的时间差可以表示如公式(2)所示。
$\Delta t=|t_{i}^{n}-t_{i}^{n+1}{{|}_{{}}}n=1,2,\cdot \cdot \cdot ,N$ (2)
当$\Delta t$超过设定的时间阈值$\Delta {{t}_{0}}$时, 认为当前两个访问行为分属
$\begin{align} & {{Q}_{i}}({{T}_{i}})=\{S_{i}^{1}(T_{i}^{1}),\cdot \cdot \cdot ,S_{i}^{m}(T_{i}^{m}),\cdot \cdot \cdot ,S_{i}^{M}(T_{i}^{M}) \\ & m=\text{1},\text{2},\cdot \cdot \cdot ,M \\ \end{align}$ (3)
其中,
在WMTS访问会话中, 针对用户产生的不同访问操作, 服务器端将返回不同图层的地图瓦片数据。为准确识别出用户访问中心(AT), 本文设计了一种基于空间连续性的用户访问中心识别方法。该方法的主要思想是: 位于相同图层的瓦片$til{{e}_{a}}$和$til{{e}_{b}}$, 若$til{{e}_{a}}$与$til{{e}_{b}}$的距离在经纬度方向上均不超过两个瓦片单元, 则认为瓦片$til{{e}_{b}}$处于瓦片$til{{e}_{a}}$的空间连续范围内。瓦片空间连续范围示意图如图1所示, 以瓦片$til{{e}_{a}}$为中心, 略大于4个瓦片单元为边长的正方形范围是瓦片$til{{e}_{a}}$的空间连续范围(绿色区域), 所有落入其中的瓦片均被认为与瓦片$til{{e}_{a}}$空间连续。
用户访问中心的识别过程包含以下步骤:
(1) 将用户
(2) 统计用户访问瓦片图层, 设最高图层为${{l}_{\max }}$, 提取出图层为${{l}_{\max }}$的访问记录, 存储到集合
(3) 取
(4) 由种子坐标计算其空间连续范围, 计算方法如公式(4)所示, 统计${{S}_{0}}$中落入当前空间连续范围的瓦片, 将其从${{S}_{0}}$转移到${{S}_{AOI}}$中;
(5) 根据步骤(4)中的规则, 利用新落入${{S}_{AOI}}$的瓦片, 计算其空间连续范围, 探测是否有新的瓦片与其空间相连, 重复该步骤直至不再有新的瓦片落入${{S}_{AOI}}$; 计算${{S}_{AOI}}$中所有点的经纬度平均值, 作为当前访问中心坐标;
(6) 判断${{S}_{0}}$是否为空, 若为空, 则当前会话访问中心的提取工作结束; 否则, 利用更新后的${{S}_{0}}$, 重复步骤(3)-步骤(5)。
$\left[ \begin{matrix} {{X}_{\min }} & {{X}_{\max }} \\ {{Y}_{\min }} & {{Y}_{\max }} \\\end{matrix} \right]=\left[ \begin{matrix} {{X}_{0}}-2 & {{X}_{0}}+2 \\ {{Y}_{0}}-2 & {{Y}_{0}}+2 \\\end{matrix} \right]$ (4)
用户访问中心提取过程示例如图2所示, 要提取当前会话中的用户访问中心, 首先选取编号为1的瓦片, 计算其空间连续范围, 发现瓦片2-9在其范围内; 根据瓦片2-9获得新的空间连续范围, 瓦片10-12在其范围内; 根据瓦片10-12获得新的空间连续范围, 不再有新的瓦片落入其中, 当前访问中心的识别工作结束, 计算所有落入瓦片的经纬度平均值, 作为当前访问中心的坐标。
服从幂律分布的数据具有以下特征: 大量低值存在于头部而少量高值存在于尾部[27]。通过首尾分割法, 可以更好地描述数据分层情况, 解释整体数据分布的复杂性[27,28,29]。传统首尾分割分类方法侧重于对“尾部”数据的层层划分, 即不断提取平均值以上的观测值[29]; 本研究旨在提取用户访问的空间范围, 侧重于空间距离范围内AT的概率分布, 需要对访问距离小于均值、但数量占比超过50%的“头部”数据进行层层划分。改进后的首尾分割法将访问距离的均值作为阈值, 对所有数据进行分割, 若均值以下的观测所占比例超过50%, 则继续对均值以内的访问距离进行循环分割, 直到均值以内的数量占比小于50%。计算方法如公 式(5)-公式(6)所示。
$mea{{n}_{H}}=\frac{\mathop{\sum }_{h=1}^{{{N}_{H}}}di{{s}_{hH}}}{{{N}_{H}}}$ (5)
$hea{{d}_{H}}=\frac{\mathop{\sum }_{i=1}^{{{N}_{H}}}(di{{s}_{hH}}<mea{{n}_{H}})}{{{N}_{H}}}$ (6)
其中,
(1) 数据介绍
天地图是中国国家测绘地理信息局(现已并入国家自然资源部)建设的地理信息综合服务网站, 以门户网站和服务接口两种形式向公众、企业、专业部门、政府部门提供地理信息服务。当用户访问WMTS时, 服务器首先根据用户所在位置以及当前浏览器窗口的大小, 自动调取用户所在城市或省份地图瓦片, 铺满用户访问的浏览器界面。用户在网络地图界面进行平移、缩放、地图类型变更等操作, 都将对服务器产生新的访问请求。用户在一次访问行为中发出的请求数与浏览器窗口大小以及访问瓦片类型(底图、注记)有关。本文以天地图服务器端的用户访问日志为研究数据源, 选用2017年1月8日-2017年1月31日时间段内的访问记录。该日志以秒为最小时间粒度, 记录下用户访问的详细信息, 包含IP、日期与时间、请求方法、访问内容、响应状态、字节数、来源网址等信息。
(2) 访问日志数据预处理
数据预处理的主要目的有三个:
①去除与本研究无关的字段和存在关键信息缺失的记录;
②提取有用信息、进行格式化存储, 如IP、时间, 、瓦片行列号、图层、类型等;
③尽可能消除机器用户对用户访问行为研究的影响。
对2017年1月8日-2017年1月31日内访问的所有IP进行地址解析, 获得所有国内访问用户列表。统计每个会话的瓦片请求量, 得到各请求量的频次分布, 如图3(a)所示。该分布在访问量为50处出现明显断层, 且随着请求量不断增大, 用户量不断减小。去除对当日总访问量的贡献超过10万次(对日总访问量贡献率为0.05%)或小于50次的IP访问记录, 以避免机器用户和网页链接两种无意识访问行为对研究结果造成影响[16]。在后续研究中, 本文进一步利用会话特征做更严格的筛选。
同时, 剔除访问天数过少的用户, 以减小偶然性访问带来的影响。统计用户
(3) 访问会话筛选
用户筛选工作完成后, 需要进行会话识别。为选取会话识别的最佳时间阈值, 以2秒为最小时间间隔, 统计所有用户访问记录相邻操作时间间隔的分布情况, 绘制其累计分布概率如图4所示。其分布函数如公式(7)所示。
$P\text{(}x\le {{x}_{A}}\text{)}=\sum\nolimits_{0}^{A}{p({{x}_{a}})}$ (7)
其中,
选取4个指标描述用户访问的时间属性特征, 分别是: 日访问会话数、会话持续时长、会话中访问请求数以及会话中瓦片访问速度, 存储为<${{u}_{i}}$,$d$,${{M}_{i}}$, $s{{t}^{m}}$,$s{{c}^{m}}$,$s{{p}^{m}}$>6元组的形式(
$s{{p}^{m}}=\frac{s{{t}^{m}}}{s{{c}^{m}}}$ (8)
对共计837 005个会话进行统计分析, 用户日访问会话数、会话持续时长、会话中访问请求数以及访问速度的分布情况如图5所示, 分析可得以下结论。
(1) 图5(a)表明, 用户在一天之内访问较为集中, 会话数量有限。10次以内的访问会话数量集中了超过90%的用户; 约80%的用户日访问会话数量不超过5个, 且有60%的用户日会话数量仅为1-2次; 随着日访问会话量的增大, 用户量的累计概率增长速度迅速下降, 说明日访问会话数量较多的用户所占比例很小。总体而言, 大部分用户进行WMTS访问时, 具有较强的目的性; 多数用户通过1-2次访问满足自己的地理信息需求, 少数用户存在多次访问。在后续关于会话空间分布特征研究中, 进一步探索用户访问会话在空间的转移特征。
(2) 图5(b)表明, 用户进行WMTS访问具有短时高效特征。绝大部分访问会话的持续时间不超过60分钟; 少量会话持续时间异常, 甚至达到一天。去除访问时长超过60分钟的会话, 进行会话中访问瓦片数量和访问速度的研究。
(3) 图5(c)从请求数量的角度, 同样论证了用户访问简洁高效的特征。绝大部分会话的访问请求数集中在50-1 000次; 少量会话具有很高的访问强度, 在单次会话中访问大量瓦片。
(4) 图5(d)表明, 用户对地图瓦片的访问速度分布差异性较大。在绝大多数会话中, 单个瓦片平均访问时长不超过10秒, 会话累计概率达到94%, 且超过85%集中在0.1-5秒范围内。访问速度受多种因素影响, 如网速快慢、用户对WMTS操作的熟悉程度、用户对查询位置的熟悉程度和需求情况等。此外, 用户在访问过程中因进行其他活动而暂停访问, 如记录、交谈、暂时离开等, 都将使时间变量高于实际值, 即公式(8)中分子变大。导致部分会话中单个瓦片平均访问时长较大, 甚至达到20秒。
与此同时, 观测到图5(b)-图5(d)的图形具有明显的“胖尾”特征, 且幂指数分布在1-3之间, 与人类行为动力学研究中关于网页浏览、邮件发送等行为的幂指数相近[30], 说明用户WMTS访问行为具有幂律特征, 大多数用户的访问行为短时简洁高效, 具有明显的需求导向特征。
将上述时间属性特征与用户所在省份进行关联, 获得全国34个省级行政区域的用户访问会话特征差异分布情况, 如图6所示。
在WMTS中, 瓦片图层越高, 所含地理信息越丰富细致, 更能体现用户的访问需求。利用2.2节中设计的AT识别算法, 获得用户访问中心, 共计256 420个。某用户当前访问会话内容在地图上的分布如图7中红色点所示(颜色由浅到深代表AT随时间转移)。本文从省份、城市、距离三个角度出发, 探究用户所在地与访问中心之间的空间关系。
(1) 省份关系: 将用户和AT的省份关系投射到一张34×34的表格中, 累计共有1 156种访问组合。横坐标表示用户所在省份, 纵坐标表示AT所在省份。统计每种访问组合在24天之内访问AT数量的平均值, 对其进行归一化处理, 并以点的大小可视化展现AT数量均值的大小, 如图8所示。可知, 对角线上的点远远大于其他位置的点, 说明用户访问以省内访问为主, 且广西、浙江、山东、四川、广东、辽宁、江苏等省份位列前茅。在非省内访问中, 北京-广东、江苏-湖南、北京-河北的访问组合所占比例较大。
(2) 城市关系: 由于全国城市众多(共计334个地级行政区划①(①数据来源: http://xzqh.mca.gov.cn/statistics/2017.html.)), 用户所在地与访问中心的组合情况过万。本文重点研究同城访问组合在所有组合中的排名情况, 记录结果如表1所示。可知, 同城访问AT数量较大、排名靠前, 且随着排名逐渐下降, 同城访问所占比例逐渐下降, 说明同城访问是主要的访问形式。
(3) 距离关系: 计算每个AT与其访问用户所在位置(用户所在城市中心点)的大圆航线距离, 利用2.3节基于首尾分割法的用户所在地与访问中心空间距离分类方法, 可得访问距离分类及占比情况如表2所示。可以发现, 超过57%的用户, 访问中心的位置在其所在位置的112千米范围内, 说明大部分用户需求集中在其所在城市周边, 验证了城市关系研究的结论; 少量用户对远距离的区域进行访问。由于在第5次划分中, 尾部数量占比小于50%, 所以划分到第4次结束。距离分布的具体情况如图9所示, 图中y轴的概率为当前区间在所有AT中所占的比例。结合表2和图9可以发现, 30%用户所在地与AT距离小, 集中在城市中心点43千米范围内。
本文基于天地图服务器端用户访问日志数据, 统计分析群体活动在会话粒度下的差异特征, 探索网络地图用户访问行为的时空分布模式, 得到以下结论:
(1) 用户访问时间属性特征: WMTS访问行为具有幂律特征, 大多数用户的访问简洁高效, 有明确的信息需求; 受工作、生活模式影响, 多数用户进行WMTS访问频度有限、日访问会话数量多集中在10次以内, 少量用户对地理信息的需求强烈, 访问频度高、请求量大。访问速度受多种因素影响, 存在较大的分布差异。
(2) 时间属性特征的空间分布差异: 信息化程度较高的东南及南部省份, 对地理信息的需求相对稳定, 单次会话持续时间长、请求量大、访问更为深入; 信息化程度相对较差的西北内陆省份, 日人均会话数量多、单次会话持续时间短、请求量小、访问深度较浅。
(3) 用户访问空间属性特征: 用户访问以同省访问、同城访问为主, 约30%的用户访问目标集中在所在城市约43千米范围内, 约43%的用户访问目标与所在城市中心点的距离超过112千米。
通过对WMTS访问进行用户和会话识别, 将群体访问细化到具体用户行为, 有助于了解微观尺度下用户访问行为的时空分布模式, 从而更深入地理解用户地理信息需求的时空分布特征。与此同时, 用户进行地理信息访问具有长期性特征, 今后将结合访问行为的时空分布特征, 进一步提升用户识别和会话识别精度, 并通过对用户访问内容进行长时间序列观测, 探究用户访问行为的动力机制。
李茹: 数据清洗、分析, 进行实验与结果分析, 论文起草;
李锐: 提出研究思路, 设计研究方案, 提出论文修改意见;
蒋捷: 提供数据支撑, 给出数据分析意见, 提出论文修改意见;
吴华意: 设计论文框架, 修改论文。
所有作者声明不存在利益冲突关系。
支撑数据由作者自存储, E-mail: liru_0222@whu.edu.cn。
[1] 李茹, 李锐, 吴华意, 蒋捷. 天地图服务器端用户访问日志.log. 天地图公共服务平台用户访问日志记录.