Advanced Search

数据分析与知识发现  2018 , 2 (8): 69-78 https://doi.org/10.11925/infotech.2096-3467.2018.0109

研究论文

跨设备搜索中设备转移前后查询式语义变化研究*

吴丹, 陆柳杏

武汉大学信息管理学院 武汉 430072

Semantic Changes of Queries from Cross-device Searching

Wu Dan, Lu Liuxing

School of Information Management, Wuhan University, Wuhan 430072, China

中图分类号:  G252.7

通讯作者:  通讯作者: 吴丹, ORCID: 0000-0002-2611-7317, E-mail: woodan@whu.edu.cn

收稿日期: 2018-01-29

修回日期:  2018-04-10

网络出版日期:  2018-08-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金面上项目“多设备融合的用户网络搜索行为建模与技术实现研究”(项目编号: 71673204)的研究成果之一

展开

摘要

目的】研究用户跨设备搜索中查询式的变化, 以支持用户的跨设备搜索。【方法】通过用户实验、日志分析、聚类分析等方法分析用户跨设备搜索前后查询式的长度、关键词词数和查询式多样性等基本特征以及查询式语义变化模式。【结果】用户在电脑端构造查询式的长度和关键词数量显著多于移动端, 但跨设备前后查询式多样性差异不明显; 用户在跨设备搜索中构造的查询式在语义相似上有“W型”、“M型”和“V型”变化模式。【局限】用户数量限制了查询式获得数量。【结论】查询式语义变化模式在一定程度上能反映用户的搜索策略, 识别用户查询式语义变化模式对判断用户搜索策略、从而支持用户跨设备搜索具有帮助。

关键词: 跨设备搜索 ; 设备转移 ; 查询式构造 ; 查询式语义变化 ; 余弦相似度

Abstract

[Objective] This paper studies the changes of queries from cross-device searching, aiming to improve users’ experience. [Methods] With the help of user experiment, log analysis and cluster analysis, we examined the cross-device search queries for their length, diversity, and the number of keywords, as well as the changing of their semantic similarities. [Results] The length and the keyword numbers of queries from desktop devices were much higher than those from the mobile devices. However, the diversities of queries did not make significant changes. There were W, M, and V patterns for semantic similarities among cross-device search queries. [Limitations] The number of experiment participants needs to be increased, which could generate more queries for future studies. [Conclusions] The changing patterns of query semantic similarities reflects users’ searching strategies, which benefits cross-device searching services.

Keywords: Cross-device Search ; Device Transitions ; Query Formulation ; Semantic Change of Query ; Cosine Similarity

0

PDF (718KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

吴丹, 陆柳杏. 跨设备搜索中设备转移前后查询式语义变化研究*[J]. 数据分析与知识发现, 2018, 2(8): 69-78 https://doi.org/10.11925/infotech.2096-3467.2018.0109

Wu Dan, Lu Liuxing. Semantic Changes of Queries from Cross-device Searching[J]. Data Analysis and Knowledge Discovery, 2018, 2(8): 69-78 https://doi.org/10.11925/infotech.2096-3467.2018.0109

互联网与智能设备的发展促进人均拥有多台联网设备的现象出现。据国际市场调查机构Verto Analytics发布的调查显示, 美国成年人群体中有44%的网络用户至少拥有一台智能手机、平板电脑和个人计算机[1], 世界人均多设备如智能手机、平板电脑、笔记本电脑的拥有量与使用量持续增长[2], 预计到2020年世界人均设备拥有量将达到10台[3]; 而中国网民使用台式电脑、笔记本电脑、平板电脑、智能电视等设备上网的比例分别为55%、36.5%、28.7%和26.7%[4], 这为用户跨设备搜索提供了设备保障。

用户通过多台设备进行搜索是日常生活中常见的搜索模式[5,6]。以生活中的跨设备搜索场景为例, 某用户在电脑端搜索与浏览有关“机器学习”的书籍, 而后在手机端使用购书应用程序搜索并购置一本《机器学习》书籍。跨设备搜索是指用户在同一搜索任务中使用不同设备进行的搜索; 复杂的搜索任务往往需要在多个搜索会话和多种搜索设备中完成[7]。搜索会话是用户在搜索引擎中输入至少一个查询式的会话[8], 用户在搜索信息时输入的查询式可以反映用户搜索行为特征[9], 因此查询式是研究包括跨设备搜索过程在内的用户信息搜索过程的关键因素[10]。对跨设备搜索中的查询式进行研究, 可以从查询式的角度揭示用户跨设备搜索行为特征, 从而为用户的跨设备搜索提供准确的信息推荐服务, 以迎合当下用户跨设备搜索的趋势, 支持其跨设备搜索行为。

1 文献回顾

文献回顾将从与本研究相关的跨设备搜索行为与跨会话搜索行为两方面进行回顾与综述。

1.1 跨设备搜索行为

由于用户通过多台设备进行搜索的趋势愈发明显[5,6], 这使得跨设备搜索成为一个重要的研究领域。跨设备搜索行为的研究主要集中在手机与电脑之间[6,11-12], 这部分研究基于搜索引擎大规模日志数据, 分析用户在不同设备中的搜索效率差异, 探索手机和电脑等不同搜索设备在跨设备搜索时的使用频率[11], 研究用户在跨设备后重复搜索时输入查询式的有效率[12], 发现用户在跨设备搜索时, 在电脑端的使用频率、搜索效率均较高, 而不同设备之间搜索记录的互相同步可以有效地帮助用户跨设备搜索[13]。此外, 研究者还识别了用户跨设备搜索时的行为模式[14], 研究并预测用户跨设备搜索任务, 展示了用户在跨设备搜索时的时间因素、地理空间因素和搜索主题之间的关联模式[5]。除了手机与电脑之间的跨设备研究, 研究者还分析了用户在手机与其他设备(如手机与平板电脑、手机与游戏机之间)的跨设备搜索行为[6], 预测用户在跨设备搜索中的不同设备间的转换概率。

1.2 跨会话搜索行为

由于跨设备搜索是由“设备转移前搜索会话”和“设备转移后搜索会话”构成[5], 因此跨会话搜索行为也与本研究相关。在跨会话搜索行为的研究中, 研究者[15]通过机器学习的方式为跨会话搜索行为进行建模, 其将跨会话搜索行为分解为识别相同任务中的查询式并且预测任务继续的可能性。虽然跨会话搜索与跨设备搜索存在共性特征, 即两者都存在多个搜索会话, 但是两者之间也存在着差别, 研究者就跨设备搜索行为与相同设备中的跨会话搜索行为进行对比分析[14], 得出与跨设备搜索相比, 用户在使用同一个设备进行持续搜索时, 其在第一个搜索会话里往往会输入更多的查询式, 访问更多的网页并且保存更多的信息。

查询式是反映用户搜索行为特征的重要指标[9]。在跨设备搜索和跨会话搜索的研究中, 基于字符变化的查询式形式上的变化如查询式长度、查询重构变化模式等特征受到较多研究的关注[16], 但从查询式语义变化的角度分析查询式的研究较少。用户在跨设备前后会输入长度相同但意思完全不同的查询式, 而对于搜索服务提供商而言, 能向用户提供准确的信息推荐服务, 对于提高用户的搜索效率与满意度, 以支持用户跨设备搜索具有重要意义。基于此, 在对跨设备搜索中查询式形式变化特征进行研究的同时, 本研究着重关注跨设备搜索中查询式语义上的变化。

2 研究设计

前人研究跨设备搜索多是基于“电脑端到移动端”(D-M)和“移动端到电脑端”(M-D)两种常见的跨设备搜索方式[5,13], “D”代表“电脑端”, “M”代表“移动端”。由于手机是用户使用最多的移动端上网设备[4], 因此本研究选取手机作为跨设备搜索中的移动端搜索工具。

2.1 研究问题

前人将查询式长度(即用户输入的查询式包含的字符数)、关键词词数(即去除停用词后, 每个查询式所包含的词语数)和查询式多样性归纳为查询式的基本特征[16], 此外, 已有研究大多是分析查询式字符、关键词等形式上的相似性[16], 较少有分析查询式语义上的相似性, 基于此, 查询式基本特征和查询式语义相似是本文关注的重点。因此本文提出以下两个研究问题:

(1) 用户在“D-M”和“M-D”两种跨设备搜索路径的设备转移前后构造的查询式长度、关键词词数、查询式多样性等基本特征是怎样变化的?

(2) 用户在“D-M”和“M-D”两种跨设备搜索路径的设备转移前后构造的查询式在语义相似性方面的变化模式是怎样的?

2.2 研究方法

(1) 数据收集方法

本研究主要采用受控的用户实验法, 在实验中通过系统日志法并辅助用户访谈法收集用户数据。实验所需设备为用户提供的笔记本电脑和用户自带的手机。整个用户实验是在研究团队自行开发的“跨设备信息搜索与融合引擎”(①http://crosssearch.whu.edu.cn.)中进行的。该搜索系统是基于Bing搜索的结果, 根据用户键盘和鼠标的操作、移动触控、浏览时长等情境信息, 对用户的搜索结果进行重新排序, 并将重新排序后的结果提供给用户。系统后台记录的日志数据是本研究的数据源, 日志记录了用户搜索时的搜索结果页面(SERP页面)、加载时间(loadtime)、行为发生时间(currenttimestamp)、SERP页面URL(pageUrl, 其中包含URL编码形式的查询式)、鼠标操作和触控手势类别(eventType)、行为起止时间(startTime、stopTime)、行为发生区域(Area)和搜索平台(platform), 如图1所示。

图1   跨设备信息搜索与融合引擎日志示例

   

为了获取用户在实验过程中的主观数据, 本研究还采用用户访谈法收集实验数据。用户访谈主要是基于用户在实验中的行为表现以及系统后台记录的数据, 针对用户在实验中的一些操作进行深入访谈, 挖掘用户搜索行为背后的原因, 深入剖析其跨设备搜索行为特征, 从而为实验分析提供依据和补充。

(2) 数据分析方法

本研究主要采用日志分析法、数据描述统计、显著性参数检验、聚类分析等方式分析数据。研究提取了“跨设备信息搜索与融合引擎”后台记录的用户日志数据。通过编程识别出用户输入的查询式, 共1 985条。由于本研究是跨设备搜索研究, 要求用户进行跨设备搜索, 而在用户实验中由于设备故障等原因导致部分用户只记录了其在一个设备中的使用数据, 因此在清洗掉这部分数据后, 共获得1 903条查询式。使用“结巴分词”对用户输入的查询式进行分词、完成去除停用词处理, 并通过SPSS等工具进行数据分析。

①查询式多样性分析

查询式的编辑距离是衡量查询式多样性的重要指标, 编辑距离越大, 表明查询式多样性越大[16]。查询式编辑距离指在一对查询式(即两个相邻查询式QiQi+1, i∈N+且i >0)中, 从Qi变成Qi+1所需要点突变的最少次数, 此处点突变是指改变一个字符、插入一个字符或删除一个字符中的任意一种变化[17]。本研究通过编程的方式计算相邻查询式的编辑距离, 以此分析用户在跨设备搜索中构造查询式的多样性。

②查询式基本特征的差异性分析

在查询式基本特征的分析中, 本文使用配对样本t检验来分析用户跨设备前后构造的查询式在基本特征上是否存在差异性。常见的配对检验适用于同一受试对象处理前后的数据, 且每对数据之间具有相关性[18]。在本文的跨设备搜索实验中, 用户跨设备前的搜索会话和跨设备后的搜索会话分别属于同一个搜索任务的前后两个搜索会话, 是两个相关的搜索会话; 同一个用户在跨设备前构造的查询式和在跨设备后构造的查询式存在关联, 属于同一个实验用户跨设备前后的数据, 因此本研究使用配对样本t检验分析用户在跨设备前后构造查询式在基本特征上的差异性, 揭示用户在跨设备前后构造查询式的基本特征是否存在显著性差异。

③查询式语义相似性分析

以查询式语义相似性分析查询式语义变化模式。使用余弦相似度计算两个相邻查询式的语义相似性。余弦相似度[19]是计算两个语义向量相似度的常用方式, 其计算如公式(1)所示。

$Similarity=\cos (\theta )=\frac{\mathop{\sum }_{i=1}^{n}{{Q}_{i}}{{Q}_{i+1}}}{\sqrt{\mathop{\sum }_{i=1}^{n}{{Q}_{i}}^{2}}\times \sqrt{\mathop{\sum }_{i=1}^{n}{{Q}_{i+1}}^{2}}}$ (1)

余弦相似度取值范围为[0,1]。其中, Similarity是余弦相似度的值, 值越接近1, 表明这两个语义向量越相似; Qi和Qi+1为两个词频向量; n代表词频向量包含的关键词个数。以两个查询式Q1“纸牌屋第五季预告片”以及Q2“纸牌屋第五季剧情走向”为例, 使用余弦相似度公式计算这两条查询式的语义相似程度, 具体步骤如下:

1)分词。经过分词并去除停用词后, Q1中的关键词有“纸牌”、“第五”、“预告片”, Q2中的关键词有“纸牌”、“第五”、“剧情”、“走向”;

2)列出所有的关键词, 构成关键词集合。这个集合里的词有: “纸牌”、“第五”、“预告片”、“剧情”、“走向”, 即此处为公式中的n, n=5;

3)依据关键词集合, 写出词频向量。Q1的词频向量为[1, 1, 1, 0, 0], 对应到余弦相似度的计算公式中为Qi; Q2的词频向量为[1, 1, 0, 1, 1], 对应到余弦相似度的计算公式中为Qi+1;

4)运用余弦相似度公式计算这两条查询式的语义相似度, 即:

$\begin{align} & \cos (\theta )=\frac{1\times 1+1\times 1+1\times 0+0\times 1+0\times 1}{\sqrt{{{1}^{2}}+{{1}^{2}}+{{1}^{2}}+{{0}^{2}}+{{0}^{2}}}\times \sqrt{{{1}^{2}}+{{1}^{2}}+{{0}^{2}}+{{1}^{2}}+{{1}^{2}}}} \\ & \ \ \ \ \ \ \ \ \ \ =\frac{2}{\sqrt{3}\times \sqrt{4}}\approx 0.577 \\ \end{align}$

因此, 查询式Q1和Q2的余弦相似度约为0.577。

为了探索与归纳跨设备搜索中查询式语义相似性的变化模式, K-means聚类被应用到本研究中。由于用户在不同的搜索会话中输入的查询式数量均不一致, 会对聚类效果产生影响, 因此受前人研究[20]的启发, 基于本研究的实验数据, 笔者选择用户在每次跨设备前搜索会话的最后4个查询式和跨设备后搜索会话的前4个查询式进行聚类, 最终共有728条查询式被运用在聚类中。

2.3 实验任务

用户实验包含4个搜索任务。由于前人研究[21]发现, 移动搜索任务主题中休闲娱乐类占比最多, 且又以电影、电视剧、音乐和语言这4类主题为主, 而移动搜索是跨设备搜索中的重要组成部分, 因此本研究以这4类主题来设计搜索任务。每个任务为一段描述, 描述包含了4个搜索要点, 如图2所示(黑体部分代表搜索要点)。为使用户有与任务相关的明确的信息需求, 每个任务针对4个搜索要点均设计了相应的问题, 用户需通过搜索收集回答问题所需的信息(只需收集信息, 不需形成完整的文档)。

图2   搜索任务示例(电影类搜索任务)

   

搜索任务以纸质形式提供给用户, 以避免用户在电脑端浏览任务而对其搜索行为产生影响。为避免任务顺序对用户搜索行为产生影响, 本研究基于任务编号, 采用轮排制为用户安排4个实验任务的顺序。实验用户的任务顺序轮排表如表1所示。由于设备转移顺序和方向是固定的, 因此不同的实验用户会使用不同的跨设备方式完成同一个的实验任务, 如用户编号为1的用户在搜索任务2时是通过“D-M”的跨设备方式完成, 而用户编号为3的用户在搜索任务2时是通过“M-D”的跨设备方式完成。

表1   用户实验任务的轮排顺序表

   

用户编号任务顺序用户编号任务顺序用户编号任务顺序
12413134231251432
22431143421263142
33214151423273412
43241164123281423
51234171432293214
64321184132302134
73412192134314321
81243202143321342
94312213124334213
101324223142341243
114213232314
121342242341

(注: 用户编号为1的用户, 其任务顺序“2413”的意思是该用户所做任务的编号顺序为2→4→1→3, 后同。)

新窗口打开

2.4 实验过程

该受控的用户实验是在实验室环境中进行。实验开始前, 为每个实验用户详细介绍实验流程, 并检查实验设备。实验过程中, 用户需按照实验要求完成4个跨设备搜索任务, 每个搜索任务共耗时40分钟。在完成每个任务时, 用户均需在两种设备(即电脑和手机)上进行搜索。基于前人研究[14], 将用户每次跨设备搜索设定为两个搜索会话(以下用Session表示搜索会话), 每个Session持续20分钟, 若第一个Session(即Session 1)是在电脑端进行, 则第二个Session(即Session 2)需在移动端进行。由于真实环境下的跨设备搜索可能存在时间间隔或中断, 即用户在使用一种设备搜索其所需信息后可能不会马上更换设备进行下一次搜索[5], 因此为了模拟真实环境下的跨设备搜索行为, 本研究人为设置了时间间隔, 即用户需在完成4个搜索任务的Session 1之后再依次进行4个搜索任务的Session 2, 以保证同一个跨设备搜索任务里存在时间间隔或中断。整个实验过程如图3所示。

图3   实验过程

   

2.5 实验用户

为了保证实验用户搜索能力的相对一致性, 本研究的实验用户全部来自于2017年“百度无限”全国高校信息搜索大赛的复赛入围选手。笔者通过问卷调查的方式对入围选手的背景信息和跨设备搜索经历进行考察, 最终选择34人作为实验用户(男性12名, 女性22名)。实验用户的学科背景涉及到16个学院的22个专业, 包括18名本科生和16名硕士研究生。在用户搜索能力自评中, 三分之二的用户自评为4分及以上(李克特5级量表), 评价良好, 有利于实验的进行。为了激励用户认真完成实验, 每名用户在完成实验之后, 研究者将依据用户的实验表现, 给予用户100至150元的实验报酬。

3 实验结果分析

3.1 跨设备搜索会话的查询式基本特征

由于本研究中一次跨设备搜索包含前后两个相关的Session, 因此使用SPSS描述性统计分析和配对t检验分析用户跨设备前后的查询式长度、关键词数量和编辑距离的平均值、标准差, 以及跨设备前后用户构造的查询式特征差异是否显著, 如表2所示。

表2   跨设备前后查询式基本特征的描述性与差异性检验表

   

搜索方式设备查询式长度关键词词数编辑距离
均值标准差Sig.均值标准差Sig.均值标准差Sig.
D-MD11.473.010.000*3.240.670.001*5.243.170.769
M7.104.412.890.745.093.21
M-DM7.414.640.000*2.800.830.000*4.382.630.082
D12.053.343.380.805.283.26

(注: *表示在0.05的水平上具有显著差异性。)

新窗口打开

表2可知, 无论选择何种跨设备搜索方式, 用户在电脑端(即D)中构造的查询式, 其查询式长度、关键词数量和编辑距离的均值均比在移动端(即M)大, 且用户在跨设备搜索前后, 其构造的查询式长度和关键词词数具有显著性差异(Sig.<0.05), 即用户在D-M这种跨设备搜索方式下, 其在电脑端构造查询式的长度和关键词词数均值多于移动端(Sig.分别为0.000和0.001); 而用户在M-D这种跨设备搜索方式下, 其在移动端构造查询式的长度和关键词数量均值少于电脑端(Sig.均为0.000)。但用户构造查询式的编辑距离无显著性差异, 用户在跨设备前后构造查询式的多样性差异并不明显。

对用户跨设备搜索中查询式编辑距离作进一步分析, 发现76.46%的相邻查询式对的编辑距离在0至10之间, 18.90%的相邻查询式对的编辑距离在10至20之间, 4.64%的查询式对的编辑距离大于等于20, 最大的编辑距离为72, 表明用户在跨设备搜索中, 其会构造较为多样化的查询式来满足其信息需求。

3.2 跨设备搜索会话的查询式相似性

(1) 跨设备搜索中查询式余弦相似度的频次统计

笔者将不同Session中的查询式两两计算其余弦相似度, 并统计其频次占比, 如表3所示。可知, 在跨设备搜索中, 任何Session的查询式余弦相似度取值范围在[0.8,1]区间的占比均最大, 这表明在相同的Session中, 用户构造的查询式在语义上存在较大的相似与关联。

表3   跨设备搜索不同Session的查询式余弦相似度频次分布(%)

   

搜索方式Session余弦相似度取值范围
[0, 0.2)[0.2, 0.4)[0.4, 0.6)[0.6, 0.8)[0.8, 1]
D-MSession 1(D)18.637.1420.5611.4742.20
Session 2(M)23.234.1617.8416.3838.39
M-DSession 1(M)19.097.1220.1019.0834.61
Session 2(D)24.156.5615.1613.1341

新窗口打开

(2) 跨设备搜索会话的查询式语义变化模式

使用K-means, 按照如前所述的方式对728条查询式进行聚类分析, 以此探索跨设备搜索会话的查询式语义变化模式。将查询式余弦相似度的值按照2类至6类依次试验之后, 发现在3类的情况下, 每一类的数量较为平均且没有显著差异, 并且每一类的特征差异最为明显, 因此本研究最终选择将查询式语义变化聚为3类, 每一类的聚类中心示意图如图4图5所示。

图4   D-M的查询式语义相似度变化聚类图

   

图5   M-D的查询式语义相似度变化聚类图

   

其中, 横坐标“4”代表用户跨设备前最后一个查询式与跨设备后第一个查询式的余弦相似度的值, 横坐标“1”、“2”和“3”代表用户跨设备前的最后4个查询式两两之间余弦相似度的值, 横坐标“5”、“6”和“7”代表用户跨设备后的前4个查询式两两之间余弦相似度的值。

依据查询式语义变化类别特征进行归纳与总结, 可以将用户跨设备搜索中查询式语义变化归纳为三种变化模式, 即“M型”、“W型”和“V型”变化模式, 每种变化模式在D-M和M-D这两种跨设备搜索方式下的分布情况如表4所示。

表4   D-M和M-D中的查询式语义变化模式分布统计

   

跨设备搜索方式查询式语义变化模式
M型W型V型
D-M29(63.04%)17(36.96%)0
M-D9(20%)036(80%)

新窗口打开

“M型”变化模式是出现较多的查询式语义变化模式, 如图4的类别一和类别三、图5的类别一所示, 且这种变化模式在D-M这种跨设备搜索方式中出现较多。在“M型”变化模式中, 存在两种情况: 第一种情况是在跨设备前后, 用户构造查询式的语义相似度均较高, 整体的语义相似度差值较小, 不同查询式在语义上较为相似, 如D-M(见图4)中的类别三, 且该类别在D-M的查询式语义变化模式中占据36.78%; 第二种情况是在跨设备前后, 用户构造查询式的语义相似度起伏较大, 整体的语义相似度差异明显, 且在跨设备前后两个搜索会话中, 查询式语义上均呈现出先升高再下降的趋势, 如D-M(见图4)中的类别一(占据26.26%)和M-D(见图5)中的类别一(占据20%)。

“W型”变化模式是出现在D-M这种跨设备搜索方式中的查询式语义变化模式, 如图4的类别二所示。这种变化模式的特征是, 用户在跨设备搜索的第一个搜索会话(即跨设备之前)中, 其构造的查询式在语义上差异明显, 两个相邻查询式之间的语义差异大, 而在跨设备搜索的第二个搜索会话(即跨设备之后)中, 用户构造的查询式在语义上愈发相似, 其语义相似度逐渐上升。

“V型”变化模式是出现在M-D这种跨设备搜索方式中的语义变化模式, 如图5的类别二和类别三所示。这种变化模式也存在两种情况: 第一种情况是用户在跨设备搜索中其构造的查询式在语义上相似度均较高, 但在跨设备之前其构造的查询式在语义上的相似度缓慢下降, 而在跨设备之后其构造查询式在语义上的相似度缓慢上升, 如图5中的类别二(占据53.33%); 第二种情况是用户在跨设备搜索前, 其构造的查询式语义相似度下降趋势明显, 而后缓慢上升, 但整体上查询式的语义相似度较低, 如图5的类别三(占据26.67%)。

(3) 跨设备搜索会话的查询式相似性变化模式对比

基于以上的查询式语义变化模式, 结合统计的数据, 笔者将D-M和M-D这两种跨设备搜索方式中的查询式语义变化模式进行对比, 如表5所示。

表5   D-M和M-D中的查询式语义变化模式对比

   

异同跨设备搜索方式
D-MM-D
不同点①拥有“W型”变化模式;
②拥有查询式语义相似度高、变化起伏较小的“M型”变化模式;
③没有“V型”变化模式。
①没有“W型”变化模式;
②没有查询式语义相似度高、变化起伏较小的“M型”变化模式;
③拥有“V型”变化模式。
相同点均有查询式语义变化起伏明显的“M型”变化模式

新窗口打开

4.3 实验结果讨论

对34名用户跨设备搜索实验的查询式变化进行分析, 研究用户在跨设备搜索前后, 其构造的查询式基本特征和查询式语义相似性的变化模式。基于实验结果, 从以下方面对结果进行深入讨论。

(1) 跨设备搜索中用户在不同设备构造查询式的特点

在跨设备搜索中, 用户无论是先用电脑搜索, 而后再使用移动端的手机进行搜索; 还是先用手机进行搜索, 而后再用电脑搜索, 其在电脑端构造查询式的长度和关键词数量均显著多于移动端搜索, 这与前人基于日常生活中多设备搜索的研究结论[22]一致; 加之19名实验用户在访谈中称电脑搜索更适用于复杂和多样的搜索任务, 13名实验用户明确表述了他们更倾向于使用电脑搜索, 这都表明用户在使用多种设备进行搜索时, 无论跨设备搜索与否, 其更青睐于在电脑端输入较长的查询式进行信息搜索, 这也进一步反应出电脑端打字与浏览信息较移动端方便, 屏幕较移动端也相对较大的特点[14]

然而, 不论采用何种跨设备搜索方式, 用户在跨设备搜索前后, 其构造查询式的编辑距离均值均不存在显著性差异。虽然用户在电脑端搜索时其查询式的编辑距离均值较移动端的高, 电脑端的查询式较移动端更为多样化, 但特征差异不明显。值得注意的是, 编辑距离大于等于40的查询式均来源于D-M这种跨设备搜索方式, 且均存在于跨设备后的搜索会话, 分析其中原因, 发现这部分查询式均是用户在跨设备前构造的查询式的深入和具体化。以编号为7的用户构造的查询式为例, 该用户在跨设备前使用电脑进行搜索时, 输入查询式“这个杀手不太冷经典台词赏析”, 而在跨设备后, 在使用手机搜索时, 其在搜索“这个杀手不太冷”之后, 构造了下一个查询式“The deepest love I think, later than apart, I will live as you like.”, 这个查询式比跨设备前构造的查询式更细节与具体, 这也表明用户在前一个设备的搜索经验会对其在后一个设备的搜索产生影响, 影响着用户查询式的构造, 使其以更多样化的查询式来满足信息需求。

(2) 跨设备搜索的查询式语义变化模式

由研究可知, 在跨设备搜索中存在“W型”、“M型”和“V型”三种查询式语义变化模式。用户所构造查询式的语义变化模式在一定程度上可以反映出用户的跨设备搜索策略。

“W型”变化模式反映了在跨设备搜索前, 用户构造的查询式在语义上差异明显, 而在跨设备之后, 查询式语义相似度逐渐提升。这种变化模式存在于D-M跨设备搜索方式下。结合用户实验和访谈分析其中的原因, 发现由于电脑端搜索便捷性等优点的存在, 用户在跨设备搜索前倾向于在电脑端围绕搜索任务来广泛搜索信息要点, 以获得对相关搜索任务的广泛的认识; 而在跨设备之后的手机端搜索时, 用户会着重对其感兴趣或没有获取足够知识的要点进行着重搜索, 以补充其对相关要点的知识。以编号为32的用户为例, 其在D-M跨设备搜索方式下, 在使用电脑端进行搜索时, 其围绕《这个杀手不太冷》的摄影手法、经典台词、经典片段构造了一系列查询式, 因此该用户在电脑端构造的查询式在语义上差异较为明显; 而跨设备后, 在移动端搜索时, 该用户围绕着《这个杀手不太冷》经典片段进一步搜索, 因此相应的查询式在语义上的相似度变大。

“M型”变化模式揭示了用户在跨设备搜索前后构造的查询式在语义上存在起伏的特点, 这种查询式语义变化模式均存在于D-M和M-D两种跨设备搜索方式中。结合用户实验分析其中原因, 发现查询式语义变化属于这种变化模式的用户, 其跨设备前所构造的查询式是围绕一部分搜索要点来进行构造, 而在跨设备后搜索的是另外一部分搜索要点。以编号为17的用户为例, 该用户在使用第一个设备进行搜索时, 围绕《这个杀手不太冷》的摄影手法、经典台词进行了一系列的搜索, 而在使用第二个设备进行搜索时, 其围绕的是《这个杀手不太冷》的经典片段和赏析进行搜索, 因此该用户在整个跨设备搜索过程中构造的查询式在语义相似程度上呈现出“M”型变化的特点。

“V型”变化模式存在于M-D跨设备搜索方式中, 这种变化模式反映了用户在跨设备前既围绕特定搜索要点进行深入搜索, 又围绕不同搜索要点进行广泛搜索, 其查询式构造行为呈现出“先具体, 再广泛”的特征; 而在跨设备后, 用户的查询式构造行为呈现出“先广泛, 再具体”的特征。以编号为33的用户为例, 其在跨设备前构造了5条查询式, 其中以“颜文字”为检索词的查询式占据3条, 而在跨设备后, 该用户围绕“颜文字”和“欧美人的颜文字”进行搜索后, 围绕着“手机如何输入颜文字”构造了一系列查询式进行深入搜索, 因此该用户构造的查询式在语义相似程度上呈现出“V型”变化特征。

(3) 支持用户跨设备搜索的建议

由于在跨设备搜索中, 查询式语义变化存在“W型”、“M型”和“V型”三种变化模式, 不同变化模式均能在一定程度上反映用户跨设备搜索特征, 因此当用户使用第一种设备进行搜索时, 无论其使用的是何种设备, 搜索服务提供商应准确判断出用户查询式语义变化模式, 对用户跨设备搜索策略实现更清楚的预测, 从而能为用户推荐更为精确的查询式, 支持用户的跨设备搜索。此外, 搜索服务提供商应结合用户输入的查询式、不同设备的搜索历史与浏览历史来智能重排并推荐最能满足用户需求的结果, 提高用户搜索结果的相关性, 从而提高用户的跨设备搜索效率。

4 结 论

本文研究了用户在跨设备搜索时构造的查询式的基本特征和语义变化模式。从研究中可以发现, 用户在跨设备搜索中, 其构造查询式的长度、关键词数量在跨设备前后存在显著性差异, 无论跨设备方式是D-M还是M-D, 用户在电脑端构造的查询式在长度和关键词数量上均多于移动端, 但跨设备前后查询式编辑距离的差异不明显。此外, 用户在跨设备搜索中, 其构造查询式在语义变化上存在“W型”、“M型”和“V型”三种变化模式, “M型”变化模式普遍存在于跨设备搜索中。查询式语义变化模式能在一定程度上反映出用户在跨设备搜索中所使用的搜索策略。

此外, 本研究也存在一些不足。由于受控实验和用户数量的限制, 导致获取的查询式数量有限, 从而限制了查询式语义变化特征的深入揭示。后续研究将从自然非受控的环境中获取用户真实环境下的跨设备搜索数据, 研究用户真实环境下跨设备搜索时的查询式特征, 并将这些查询式特征运用于用户跨设备搜索行为的预测研究中, 从而能更好地支持用户跨设备搜索。

作者贡献声明

吴丹: 提出研究思路和研究设计, 论文修改及最终版本修订;

陆柳杏: 负责实验, 分析数据, 撰写论文初稿。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据见期刊网络版http://www.infotech.ac.cn。

[1] 吴丹, 陆柳杏. BasicData.xlsx. 查询式基本特征数据.

[2] 吴丹, 陆柳杏. CosineSimilarity.xlsx.zip. 34名用户的余弦相似度计算.

[3] 吴丹, 陆柳杏. CrossDeviceSearchTask.docx. 跨设备搜索任务.

[4] 吴丹, 陆柳杏. Interview.docx. 访谈提纲.


参考文献

[1] Hwong C.

Chart of the Week: The State of Cross-Device Ownership

[EB/OL]. [2018-01-06]. .

URL      [本文引用: 1]     

[2] Zaidi A.

Cross-Device and Mobile Consumers: Who are They and Where do They Spend Time?

[EB/OL]. [2018-01-06]. .

URL      [本文引用: 1]     

[3] Hwong C.

How to Use Data and Insights to Tell a Compelling Story About Your Cross-Device Audience

[EB/OL]. [2018-01-06]. .

URL      [本文引用: 1]     

[4] 中国互联网络信息中心.

第40次中国互联网络发展状况统计报告

[R/OL]. [2018-01-06]. .

URL      [本文引用: 2]     

(China Internet Network Information Center.

The 40th China Statistical Report on Internet Development

[R/OL]. [2018-01-06].

URL      [本文引用: 2]     

[5] Wang Y, Huang X, White R W.

Characterizing and Supporting Cross-device Search Tasks

[C]// Proceedings of ACM International Conference on Web Search and Data Mining. ACM, 2013: 707-716.

[本文引用: 6]     

[6] Montanez G D, White R W, Huang X.

Cross-Device Search

[C]// Proceedings of ACM International Conference on Information and Knowledge Management. ACM, 2014: 1669-1678.

[本文引用: 4]     

[7] 吴丹, 梁少博.

多设备环境下网络信息搜索行为研究综述

[J]. 中国图书馆学报, 2015, 41(6): 109-127.

https://doi.org/10.13530/j.cnki.jlis.156009      URL      [本文引用: 1]      摘要

本研究在对国内外相关文献调查的基础上,采用扎根理论的研究方法,对文献中的原始内容进行编码分析,探讨多设备环境下网络用户信息搜索行为的研究进展。研究发现:用户搜索活动跨越不同类型的设备成为一种趋势;用户的网络信息搜索行为受搜索内容、时间、地点、设备种类等因素交叉影响;用户搜索数据的共享能够支持用户的搜索活动在不同设备间转移。针对现有研究的一些问题,未来研究应重点关注以下内容:深化理论研究,构建相关的搜索行为模型;选择更多的设备类型;收集更多类型的用户数据;在数据描述基础上,探讨深层原因,分析用户行为的个性化差异;开发多设备环境下支持跨设备搜索的系统、应用等。

(Wu Dan, Liang Shaobo.

A Review on Information Search Behavior Under a Multidevice Environment

[J]. Journal of Library Science in China, 2015, 41(6): 109-127.)

https://doi.org/10.13530/j.cnki.jlis.156009      URL      [本文引用: 1]      摘要

本研究在对国内外相关文献调查的基础上,采用扎根理论的研究方法,对文献中的原始内容进行编码分析,探讨多设备环境下网络用户信息搜索行为的研究进展。研究发现:用户搜索活动跨越不同类型的设备成为一种趋势;用户的网络信息搜索行为受搜索内容、时间、地点、设备种类等因素交叉影响;用户搜索数据的共享能够支持用户的搜索活动在不同设备间转移。针对现有研究的一些问题,未来研究应重点关注以下内容:深化理论研究,构建相关的搜索行为模型;选择更多的设备类型;收集更多类型的用户数据;在数据描述基础上,探讨深层原因,分析用户行为的个性化差异;开发多设备环境下支持跨设备搜索的系统、应用等。
[8] 吴丹, 梁少博, 冉爱华.

大学生用户移动搜索策略研究

[J]. 中国图书馆学报, 2016, 42(3): 55-73.

https://doi.org/10.13530/j.cnki.jlis.163005      URL      [本文引用: 1]      摘要

在移动互联网迅速发展的背景下,移动搜索日趋普遍,搜索策略成为用户行为研究的一个重要方面。现有用户搜索策略研究包含查询式和搜索会话的统计分析,以及结合用户的信息需求、搜索情境来分析原因。本研究通过非受控实验的方式,对大学生用户在移动环境下的查询式构造、搜索会话中的查询式及搜索会话的其他特征进行分析。研究发现:在移动环境下大学生用户习惯使用多种语言组配进行搜索;搜索信息的主题类型存在聚焦现象;移动搜索更加便捷,大学生用户通过更短的查询式、搜索会话便可满足其信息需求;大学生用户会通过多种策略,在手机上执行较为复杂的搜索任务;其搜索活动会引发其他后续活动。研究大学生用户在移动环境下的搜索策略,可了解其搜索行为特征,有助于搜索引擎服务商提供更符合其搜索习惯的服务,更好地满足其信息需求,提高搜索效率。

(Wu Dan, Liang Shaobo, Ran Aihua.

Mobile Search Strategies of College Students

[J]. Journal of Library Science in China, 2016, 42(3): 55-73.)

https://doi.org/10.13530/j.cnki.jlis.163005      URL      [本文引用: 1]      摘要

在移动互联网迅速发展的背景下,移动搜索日趋普遍,搜索策略成为用户行为研究的一个重要方面。现有用户搜索策略研究包含查询式和搜索会话的统计分析,以及结合用户的信息需求、搜索情境来分析原因。本研究通过非受控实验的方式,对大学生用户在移动环境下的查询式构造、搜索会话中的查询式及搜索会话的其他特征进行分析。研究发现:在移动环境下大学生用户习惯使用多种语言组配进行搜索;搜索信息的主题类型存在聚焦现象;移动搜索更加便捷,大学生用户通过更短的查询式、搜索会话便可满足其信息需求;大学生用户会通过多种策略,在手机上执行较为复杂的搜索任务;其搜索活动会引发其他后续活动。研究大学生用户在移动环境下的搜索策略,可了解其搜索行为特征,有助于搜索引擎服务商提供更符合其搜索习惯的服务,更好地满足其信息需求,提高搜索效率。
[9] Guan D, Zhang S, Yang H.

Utilizing Query Change for Session Search

[C]// Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2013: 453-462.

[本文引用: 2]     

[10] Fu H.

Query Reformulation Patterns of Mixed Language Queries in Different Search Intents

[C]// Proceedings of the 2017 Conference on Human Information Interaction and Retrieval. ACM, 2017: 249-252.

[本文引用: 1]     

[11] Geronimo L D, Husmann M, Norrie M C.

Surveying Personal Device Ecosystems with Cross-device Applications in Mind

[C]// Proceedings of the 5th ACM International Symposium on Pervasive Displays. ACM, 2016: 220-227.

[本文引用: 2]     

[12] Sohn T, Battestini A, Horii H, et al.

Supporting Unplanned Activities Through Cross-device Interaction

[C]// Proceedings of International Conference on Automotive User Interfaces and Interactive Vehicular Applications. ACM, 2010: 146-147.

[本文引用: 2]     

[13] Sohn T, Mori K, Setlur V.

Enabling Cross-device Interaction with Web History

[C]// Proceedings of the 28th International Conference Extended Abstracts on Human Factors in Computing Systems. ACM, 2010: 3883-3888.

[本文引用: 2]     

[14] Han S, Yue Z, He D.

Understanding and Supporting Cross-Device Web Search for Exploratory Tasks with Mobile Touch Interactions

[J]. ACM Transactions on Information Systems, 2015, 33(4): 1-34.

[本文引用: 4]     

[15] Kotov A, Bennett P N, White R W, et al.

Modeling and Analysis of Cross-session Search Tasks

[C]// Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2011: 5-14.

[本文引用: 1]     

[16] Yue Z, Han S, He D.

An investigation of the Query Behavior in Task-based Collaborative Exploratory Web Search

[J]. Proceedings of the American Society for Information Science & Technology, 2014, 50(1): 1-10.

https://doi.org/10.1002/meet.14505001091      URL      [本文引用: 4]      摘要

AbstractCollaboration in the information seeking and retrieval environment is common, particularly when the search task is complex and exploratory. Multiple factors such as contextual features and task type can affect users' query behavior. This paper presents a study investigating the effects of collaboration and task types on users' query behavior. The study involves two conditions: collaborative search and individual search, and the two search tasks: the recall-oriented information-gathering and the utility-based decision-making. We analyze users' query behavior in three dimensions: basic query features (e.g. the number of queries), query reformulation patterns (e.g. New, Specification, Generalization and Reconstruction) and query performance. The findings of this study reveal that queries are more diverse in collaborative search and recall-oriented tasks. Users employed New and Specialization more often as query reformulation types in collaborative search while people in individual search use Reconstruction more often. Besides, the successful query rate is higher in individual search and recall-oriented tasks.
[17] Liu Bing.Web数据挖掘[M]. 北京: 清华大学出版社, 2009:247.

[本文引用: 1]     

(Liu Bing.Web Data Mining[M]. Beijing: Tsinghua University Press, 2009: 247.)

[本文引用: 1]     

[18] 张文彤, 邝春伟. SPSS统计分析基础教程[M]. 北京: 高等教育出版社, 2011: 260-263.

[本文引用: 1]     

(Zhang Wentong, Kuang Chunwei.SPSS Statistical Analysis Basic Course[M]. Beijing: Higher Education Press, 2011: 260-263.)

[本文引用: 1]     

[19] Han J, Kamber M, Pei J.数据挖掘: 概念与技术[M]. 第3版. 范明, 孟小峰译. 北京: 机械工业出版社, 2012: 77-78.

[本文引用: 1]     

(Han J, Kamber M, Pei J.Data Mining: Concepts and Techniques [M]. The 3rd Edition. Translated by Fan Ming, Meng Xiaofeng. Beijing: China Machine Press, 2012: 77-78.)

[本文引用: 1]     

[20] Liu C, Liu J, Belkin N J.

Predicting Search Task Difficulty at Different Search Stages

[C]// Proceedings of the ACM International Conference on Information and Knowledge Management. ACM, 2014: 569-578.

[本文引用: 1]     

[21] Wu D, Yao X, Dong J, et al.

Designing Mobile Search Tasks: A Context-Based Approach

[J]. Geomatics and Information Science of Wuhan University, 2016, 41(S): 34-39.

URL      [本文引用: 1]      摘要

Abstract This paper presents a construction of mobile search tasks based on the relevant contexts. These mobile search tasks consist of core tasks, which are extracted from users' real mobile seeking behaviors through a 2-week user experiment and expanded tasks, which are identified through a user survey with variations of the relevant context factors extracted from the core tasks. The core task and expanded task share the same structure written in XML. Referring to TREC Topic structure, four tags of , , and were selected as part of the mobile search task structure. Other five tags as , , , and were used to describe the context in the task structure. The subject was classified into and , and the task type was classified into , and if there was a need. We think that the context based mobile search tasks we develop clearly describe the information needs of mobile search users, and can be used for evaluating mobile search algorithms. 2016, Research and Development Office of Wuhan University. All right reserved.
[22] Kamvar M, Kellar M, Patel R, et al.

Computers and iPhones and Mobile Phones, oh My!: A Logs-based Comparison of Search Users on Different Devices

[C]// Proceedings of International Conference on World Wide Web. ACM, 2009: 801-810.

[本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/