Advanced Search

数据分析与知识发现  2018 , 2 (1): 51-63 https://doi.org/10.11925/infotech.2096-3467.2017.0890

研究论文

基于用户浏览日志的移动购买预测研究*

张鹏翼, 王丹雪, 焦祎凡, 陈秀雨, 王军

北京大学信息管理系 北京 100871

Predicting Mobile Purchase Decisions Based on User Browsing Logs

Zhang Pengyi, Wang Danxue, Jiao Yifan, Chen Xiuyu, Wang Jun

Department of Information Management, Peking University, Beijing 100871, China

中图分类号:  G250.2

通讯作者:  通讯作者: 张鹏翼, ORCID: 0000-0003-0624-6776, E-mail: pengyi@pku.edu.cn

收稿日期: 2017-09-6

修回日期:  2017-11-6

网络出版日期:  2018-01-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金项目“面向电子商务生态平衡的目录导购机制研究”(项目编号: 71373015)的研究成果之一

展开

摘要

目的】对用户在移动购物APP进行的信息浏览与商品购买行为特征进行描述分析, 并尝试预测商品购买。【方法】在日志请求参数与用户信息行为类型之间建立映射, 得到用户的行为解析, 进一步分析用户行为特征后, 使用Logistic二元回归和C&R决策树两种方法建立商品支付购买预测模型。实验数据来自2015年3月某移动购物APP的290位重度用户的3 923 429条服务器端日志。【结果】在用户浏览行为特征方面, 用户周内使用平稳, 夜晚睡前达到高峰; 最关注单品详情, 浏览程度越深越有可能查看店铺信息并进行商品、店铺信息的分享; 用户对商品的浏览呈幂律分布, 90%的商品浏览记录都在16条以下。在用户购买行为特征方面, 有9条浏览记录的商品、提交了订单的商品最有可能被购买; 商品购买与浏览、分享单品和店铺信息次数呈正相关。在商品支付购买预测方面, C&R决策树预测准确率稍高于Logistic二元回归, 然而变量种类远少于后者。【局限】日志数据可能不能准确反映用户的操作行为; 对于用户行为的解析有一定模糊性; 数据来自重度用户, 可能不具有普适性; 数据来自于3月份这个时间段, 可能会受前后浏览或购买行为的影响。【结论】用户浏览及购买行为特征可帮助移动购物APP完善产品功能, 提升用户体验; Logistic二元回归相比于C&R决策树可以更好地预测商品支付购买。

关键词: 信息浏览 ; 信息行为 ; 购买预测 ; 移动购物 ; 移动电商

Abstract

[Objective] This research characterizes users’ browsing patterns, aiming to predict their purchasing decisions on mobile shopping applications. [Methods] First, we mapped the request parameters of the logs with users’ information behavior types. Then, we used logistic binary regression and C&R decision tree techniques to establish models to predict the buying decisions. The data set included 3,923,429 lines of server logs generated by 290 heavy users of a popular mobile shopping app in March 2015. [Results] We found that the frequency of users’ browsing behaviors was stable during the weekdays and reached its peak every night before bedtime. Users paid much attention to product details and those with deeper browsing behaviors are more likely to read introduction to the shop and share related information. The number of views was in line with the power-law distribution and 90% of the merchandise was checked less than 16 times. We also found that goods viewed by 9 times and placed in the carts were most likely to be bought. There was a positive correlation between the purchases of goods and the numbers of views or sharing of the item and the shop. The C&R decision tree model’s prediction accuracy was slightly higher than that of the Logistic binary regression model. However, the former’s variable types were far less than the latter. [Limitations] Logs cannot fully reflect all users’ behaviors, which lead to some ambiguity of our analysis. The conclusion might not tell the whole story since the logs were generated by heavy users in one month. [Conclusions] The pattern of user browsing and buying behaviors could be used to enhance their experience of the mobile shopping applications. Logistic binary regression might better predict users’ buying decisions than the C&R decision trees model.

Keywords: Information Browsing ; Information Behavior ; Purchase Decision ; Mobile Shopping ; Mobile Electricity Business

0

PDF (700KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

张鹏翼, 王丹雪, 焦祎凡, 陈秀雨, 王军. 基于用户浏览日志的移动购买预测研究*[J]. 数据分析与知识发现, 2018, 2(1): 51-63 https://doi.org/10.11925/infotech.2096-3467.2017.0890

Zhang Pengyi, Wang Danxue, Jiao Yifan, Chen Xiuyu, Wang Jun. Predicting Mobile Purchase Decisions Based on User Browsing Logs[J]. Data Analysis and Knowledge Discovery, 2018, 2(1): 51-63 https://doi.org/10.11925/infotech.2096-3467.2017.0890

1 引 言

移动电子商务应用已经成为我国网民最常使用的互联网应用之一。2017年1月中国互联网络信息中心(CNNIC)发布的第39次《中国互联网络发展状况统计报告》显示, 截至2016年12月, 我国网络购物用户规模达到4.67亿, 占网民比例为63.8%, 较2015年底增长12.9%。其中, 手机网络购物用户规模达4.41亿, 占手机网民的63.4%, 较2015年增长29.8%[1]。相比传统网络购物, 移动购物具有不受时间、空间和设备的限制, 推送更加个性化等优势[2], 其市场份额和用户覆盖率迅速增加。移动电子商务占电子商务总交易量的比重日益增加, 逐渐得到更多研究的关注。已有研究大多关注在移动电子商务的平台、移动电商的用户采纳等方面, 对于移动购物的主体“用户”的信息行为关注较少。关于购买预测的研究都是以PC端为主, 而移动端的行为有一些新的特点。例如碎片化的使用时间、便携购买使得与PC端相比有不同的特征。移动购物用户的信息行为研究, 尤其是其对购买的影响, 对于深度了解用户移动网络购买行为、改进电商系统平台和服务、促进消费都具有重要意义。

本研究选取国内某女性时尚消费类APP, 其目标用户群是23岁-30岁年轻白领, 目前拥有超过1亿的女性注册用户。QuestMobile发布的移动互联网2017春季报告显示, 该APP 2017年3月月活跃用户512万人, 月度人均时长59分钟, 中高消费水平用户占比90.7%[3]。以该APP服务器端用户日志数据为基础, 对用户的商品信息浏览行为进行建模, 并对商品购买进行预测。

2 相关研究

2.1 网购用户信息行为研究

已有研究尝试对网购用户及用户网购信息行为进行建模。有学者在分析电子商务网站顾客信息搜寻行为的理论基础上, 构建了基于理论基础、搜寻阶段和影响因素的三层次的顾客信息搜寻行为过程模型, 从触发、网站选择、商品检索、店内信息浏览和比较评价等5个阶段对顾客信息搜寻行为的形成机制进行探索性分析[4]。也有学者基于用户网购的日志数据进行建模, 如袁兴福等[5]提出一种描述用户信息行为的序列特征、时间特征、内容特征的“状态-行为”模型, 基于此模型聚类得到8类具有显著特征的用户: 行动迅捷的搜索者、信息浏览漫步者、营销信息依赖者、个人资料管理者、工作日会话产生者、休息日会话产生者、晚间会话产生者、非常规时间访问者; 并总结出6类具备不同行为模式的会话: 功能探索会话、卖家管理会话、营销推动会话、资料管理会话、商品浏览会话、检索依赖会话[6]

网购海量信息下用户信息焦虑和信息迷航现象时有发生, 用户在做出购买决策前的信息搜寻行为受网购平台、商品详情、用户信息搜寻能力、用户消费心理和网购习惯等多种因素的影响[7,8,9]。有研究通过用户点击流日志、问卷调查、访谈、实验法等多种方法[10,11,12]获取用户信息搜寻行为数据, 利用顺序分析、聚类分析等方法[12]挖掘用户信息搜寻行为特征。有学者发现用户对于商品参数的浏览偏好受其性别、认知需求、知识背景等多种因素影响[10]。会话的引入使得用户在多会话网购过程中的信息浏览、检索行为及其行为序列特征研究更加细致, 有研究发现多会话网购用户信息需求并不急切, 较之搜索更倾向于查看商品详情; 平均会话时间间隔为3-4天; 继续原来购物任务的动力包括个人偏好、需求状态、支付能力、时间等方面的因素; 用户主要通过搜索、购物车、收藏夹、同店或同款商品浏览、商品个性化推荐等途径回到原来购物任务[12]。当会话数量为8个及以下时, 用户的浏览和搜索行为呈现出明显的规律性变化, 且前4个会话发生时是用户做出购物决策的关键阶段; 用户在多会话网购过程中存在6种典型的信息搜寻行为模式, 分别有不同的信息搜寻行为特征[11]

2.2 用户购买预测研究

对于商品的购买预测一直都是一个富有挑战性的课题, 许多学者根据用户网络购买产生的海量数据进行购买预测。传统推荐技术如协同过滤推荐技术、基于内容的推荐技术等已经被电子商务平台广泛应用, 主要是根据用户信息行为特征及购买偏好, 构建相似候选商品集合, 将该客户未来最可能购买的前n个产品推荐给用户[13,14,15]。有很多学者以电商平台大样本用户数据为基础, 采用机器学习和特征工程的方法训练商品购买模型, 如Li等[16]基于淘宝数据设计一个特征工程框架来提取6类功能, 旨在捕捉用户-商品对的购买潜力, 应用梯度提升决策树(GBDT)作为训练模型。Gupta等[17]基于访问属性、访问者属性、购买历史、Web数据及网络挖掘、大数据技术和机器学习算法研究产品的自适应或动态定价方法, 预测商品购买的最佳价格。也有学者使用数学、统计学模型结合用户购买行为、过程、影响因素等理论构建预测模型, 如曾宪宇等[18]基于用户行为序列数据构建基于潜在因子的选择模型, 进而对用户在一个购买周期内的购买决策进行预测。吴国华等[19]将购买决策、购买时间间隔、重购行为和顾客逃逸等诸多因素进行整合考虑, 采用线形回归和对数模型等数学模型预测普通日用消费品在某时间段内、顾客多次购买的概率。张阔等[20]通过专家访谈和问卷调查, 识别对消费者寿险购买行为有重要影响的个体态度变量, 采用判别分析和 Logistic回归的方法分别建立了消费者寿险购买行为的预测模型且两种模型的预测精度较好。决策树已经被广泛应用在各个领域进行数据挖掘, 在用户行为方面[21,22,23]也不例外, 并且预测效果较好。如张晨阳等[24]提出一种基于决策树的移动互联网用户付费分类预测方法, 以用户行为数据为基础, 强化用户感知对付费行为的影响, 准确率达到83%[20,21]。综合以上研究, 以用户行为日志数据为基础, 采用决策树、Logistic回归方法进行购买预测的效果较好。之前学者的预测多基于PC端日志数据, 本研究尝试利用决策树和Logistic回归方法对移动端用户日志记录的购物行为进行建模。

3 实验数据及方法

3.1 数据来源

原始日志数据共包含注册时间为2014年12月31日及以前的7 572位用户。其中, 在2015年1月至3月内, 连续3个月在PC端下单的用户数量为2 793个, 占比36.89%; 在移动端下单的用户数量为2 752个, 占比36.34%。而连续3个月在PC端及移动端均有下单的用户仅有290个, 占比3.83%。将连续3个月在两类客户端上均有下单的用户定义为该电商APP的“重度用户”, 并作为研究对象。APP使用服务器端日志记录共3 923 429条, 记录了用户的使用时间、信息行为、使用内容等信息, 日志的部分有效参考字段如表1所示。其中店铺ID和商品ID从“请求参数”中提取出来, 并不是原始日志固有字段。辅助数据为该电商平台订单表, 记录了该电商平台提交订单和购买的商品, 部分有效参考字段如表2所示。

表1   服务器端日志数据结构

   

字段含义字段含义
log_date登录时间request_params请求参数
h、m、s时、分、秒shop_id店铺ID
uri用户访问链接twitter_id商品ID
request_name请求名user_id用户ID

新窗口打开

表2   订单表结构

   

字段含义字段含义
user_id用户IDorder_create_time订单生成时间
twitter_id商品IDpay_time支付时间
order_id订单ID

新窗口打开

3.2 用户信息行为解析及数据预处理

用户在购物过程中存在信息搜寻、信息管理、社交等多种信息行为[12], 本研究聚焦用户信息搜寻行为之一的浏览信息行为, 具体为与商品、店铺、购物车有关的浏览行为, 并定义了“加入购物车”、“提交订单”以及“支付”三种购买行为, 尝试探究浏览行为与购买行为之间的关系, 并进行商品购买预测。日志记录数据中, “request_name”和“request_params”两个字段记录了用户使用APP时发出的请求名称及请求内容, 结合该平台手机APP界面设计与功能设置、该公司后台程序部门工作文档以及日志记录上下文语境, 可以识别日志记录中的“request_name”字段值含义, 将其与用户行为建立映射关系。发现存在1个request_name对应n种用户行为、n个request_name对应1种用户行为和n个request_name对应n种用户行为三种映射关系。

根据对于日记记录的用户信息行为解析, 选取并整理合并了request列表, 如表3所示。

表3   行为类别表

   

一级行为二级行为备注
浏览
行为
浏览商品详情查看商品详情进入单品页查看商品详情
浏览单个商品信息(单品页主体信息, 预加载)
浏览商品尺码规格、细节图、
实拍图等详情
点击详情、尺码、评价或规格等标签
浏览单个商品信息(饰品、包包等某些特殊商品的特殊规格:
质地、硬度、是否镶嵌等)
单品页下方的商品细节图、实拍图等
浏览单个商品信息(单品页详细信息, 主要是实拍图、尺码等)
浏览商品评价、晒单单品页上点击“评论”, 查看商品所有评论
单品页上的评价列表信息
商品下的购物晒单列表
查看商品大图浏览单个商品信息(单品页点击主图, 查看商品大图)
下拉浏览商品详情下拉浏览商品详情
浏览店铺详情查看店铺信息单品页上的店铺简介。单品页预加载会多次请求
浏览店铺信息
查看店铺热卖单品页上的店铺热销。单品页预加载同样多次请求
查看店铺商品列表浏览店铺商品列表, 会随着用户下拉不停地刷新, 筛选不同选项卡
和价格会重新刷新
分享商品、店铺点击分享按钮
分享店铺、商品信息
查看购物车在单品页或者活动页右上角点击icon查看购物车或点击查看购物车
购买行为添加购物车将商品添加到购物车
提交订单选择商品后提交订单
成功支付支付完成订单

新窗口打开

其中“提交订单”及“支付”两部分数据来自于订单表, 其余全部来自原始日志记录。根据映射关系和行为含义, 将用户浏览行为划分为两个层级: 一级行为有“浏览商品详情”、“浏览店铺详情”、“分享商品、店铺”、“查看购物车”这4种行为; 二级行为有“查看商品详情”、“浏览商品尺码规格、细节图、实拍图等详情”、“浏览商品评价、晒单”、“查看商品大图”、“下拉浏览商品详情”、“查看店铺信息”、“查看店铺热卖”、“查看店铺商品列表”等。

将原始日志记录数据和订单表数据导入MySQL数据库进行处理, 根据研究行为列表进行清洗, 去掉与研究行为对象无关的其他用户日志记录。经初步清洗后, 290个用户共浏览93 643个商品, 平均每个用户浏览322.91个商品; 共浏览48 903个店铺, 平均每个用户浏览168.63个店铺; 共有854 041条日志记录, 平均每人产生2 944.97条日志记录; 共加购物车5 995个商品, 平均每人加入20.67个商品; 共提交订单2 530个商品, 平均每人提交订单8.72个商品; 共购买1 955个商品, 平均每人购买6.74个。其中, 多个用户有大于一次的购买行为, 即对同一商品多次加入购物车、提交订单和支付购买。

3.3 分析及预测方法

Logistic回归模型是对二分类因变量 (即y=1或y=0)进行回归分析时应用最普遍的多元量化分析方法, 因将目标概率进行Logit变换而得以避免线性概率模型的结构缺陷[25]。在估计模型时采用极大似然估计的迭代方法, 找到系数的“最可能”的估计[26]。决策树是一种有效的数据挖掘方法, 它以属性作为节点, 以属性取值作为分支, 形成树型结构。通过决策树模型对新样本进行检测时, 从根节点开始, 按照样本属性的取值, 逐渐沿着决策树向下, 直到叶节点, 叶节点表示的类别就是新样本的类别。相比于其他分类算法, 决策树的推导过程直观且易于理解, 其分类规则的含义清晰明了, 可读性高[27]。本研究中因变量是否购买商品是一个二元变量, 笔者设想根据用户对一个商品的浏览行为预测商品购买, 因此采用这两种方法建模并进行对比。

使用SPSS22.0对数据进行描述性统计和相关性分析, 分析用户浏览行为和购买行为特征、与购买行为相关的浏览行为。将用户三种购买行为皆定义为0(未加购物车、未提交订单、未购买)和1(加购物车、提交订单和购买)。随机抽取4/5的用户数据作为训练集(共74 651条记录); 1/5数据作为测试集(共18 992条记录), 用来检验预测模型准确性。由于发生购买行为的商品数量占比较低, 为平衡样本提升预测准确度, 使用欠采样的方法[28], 在未购买商品中随机抽取4 276个商品进行加购物车预测建模、1 607个商品进行提交订单预测建模、1 410个商品进行购买预测。

4 实验结果及分析

4.1 浏览行为特征

(1) 平台周内使用平稳, 夜晚睡前达到高峰

本研究统计了全部样本用户3月份每天24小时的用户日志记录数, 以及该时间维度内发生了购买行为(三种购买行为合并统计)。图1展示了4周每天的日志数量变化趋势。可以看出除第三周外, 用户在一周内的使用较为平稳, 仅有较小波动。工作日和休息日的记录数和购买商品的数量没有显著区别; 周日记录数和购买商品数量略高于周六。这与袁兴福等[5]对某电商平台PC端使用日志记录的研究发现不同, 该研究发现休息日会话量低于工作日, 且周六会话量大于周日。推测结论不同与移动购物设备的便捷性、即时性优势有关。该电商平台于3月18日(第三周星期三)有促销活动, 因此用户在第三周使用日志记录数明显高于其他三周, 周三日志记录数和发生购买行为的商品数都达到了峰值, 可见促销活动效果显著。第四周为促销活动后的回落期, 用户的购物需求得到满足后短时间内会减少使用APP的次数。

图1   用户浏览日志周变化趋势

   

图2显示了用户浏览的日志条数和发生购买相关行为的商品数量按小时趋势。用户在白天使用APP的时间主要集中在10:00-16:00, 这段时间内记录数较为平稳, 在11:00达到高峰; 晚上17:00-19:00记录略下降后在20:00快速上升, 在23:00达到最高峰; 后快速下降, 凌晨使用较少。而购买行为发生的时间与浏览行为基本趋势一致, 符合用户先充分浏览获取信息后作出购买决策的一般规律。用户午休和晚上下班后发生购买行为的商品数量较多, 推测用户更希望在专心程度更高的状态下作出购买决策, 白天可以在工作、学习之余利用碎片时间使用APP进行商品信息浏览, 下班之后则有更多时间精力充分投入该平台的购物活动。

图2   用户浏览日志条数及发生购买相关行为的商品数量日均变化

   

(2) 单品详情最受关注, 好物好店获得分享

将全部用户样本的各种行为记录计数并排序(见表4), 用户浏览相关行为整体为高于购买相关行为, 符合用户购买规律。

表4   用户日志记录及占比分析

   

日志记录频次占比(%)
查看商品详情180 19821.10
浏览商品尺码规格、细节图、
实拍图等详情
172 08920.15
浏览商品评价、晒单161 72018.94
分享商品、店铺89 53910.48
查看店铺热卖88 36310.35
查看店铺信息86 77510.16
下拉浏览商品详情40 4304.73
查看店铺商品列表9 5541.12
查看商品大图7 1000.83
添加购物车5 9950.70
提交订单2 5300.30
成功支付1 9550.23
查看购物车1 7980.21

新窗口打开

用户购买过程中最关注的信息是商品详情信息, 最高的记录数是点击“查看商品详情”, 占比21.10%; 而“浏览商品尺码规格、细节图、实拍图等详情”和“浏览商品评价、晒单”其次, 占比分别为20.15%和18.94%。用户进行商品购买时不仅关注商品详情, 也十分关注其他用户的购买反馈。网购商品普遍存在商品失真问题, 卖家图片可能经过PS等多手段处理, 某些商品的模特展示效果也与现实中真人试穿有较大区别, 浏览其他买家的评价和晒单便于获得更可靠的参考信息[29]。该电商平台着力打造购物社区功能, 鼓励用户对商品、店铺进行分享, 互相交流购物体验。“分享商品、店铺”记录数占比10.48%, 位列第4, 可见主打的购物社区功能较好地发挥了作用, 用户积极分享自己喜爱的商品店铺信息。网购用户可能会因为网购成本、网购商品、网购流程、网购服务、网购安全等与消费者心理预期不相符而放弃进一步查看商品详情[30], 用户进入单品页浏览商品详情信息后, 将单品页下拉至最后可以看到店铺热卖, 浏览程度较深, 这一记录仅占比10.35%。从整体上看, 对于商品的浏览远多于对店铺的浏览, 用户通常是直接点击进入感兴趣商品的单品页进行浏览, 而不是先进入店铺; 用户可能会因为喜爱商品而从单品页点击进入店铺页, “查看店铺信息”和“查看店铺商品列表”仅占比10.16%和1.12%。移动购物用户“查看商品大图”频次较低, 记录仅占比0.83%, 可能是因为移动APP的商品详情图较为清晰, 不需要专门点击大图。

(3) 用户对商品的浏览呈幂律分布, 90%的商品浏览记录都在16条以下

将用户在一个商品上的浏览记录作为分析单位, 统计每个商品上的每个用户的浏览记录数量, 如表5所示。50%商品的用户浏览记录都在8条以下, 90%的商品用户浏览记录都在16条以下。商品的浏览记录数量空间为1-404条, 发现只有一条浏览记录的商品最多, 占比23.94%, 推测这些浏览记录可能来自商品列表中自动加载的商品。

表5   用户浏览记录数-商品数量表

   

浏览记录商品总数占比(%)累计百分比(%)浏览记录商品总数占比(%)累计百分比(%)
122 41123.9423.94111 7061.8281.58
23 2333.4527.39122 9403.1484.72
38250.8828.27131 3611.4586.17
41 1351.2129.48141 6671.7887.95
51 1241.2030.68158550.9188.86
63 0443.2533.93161 1951.2890.14
713 80914.7546.48171 0551.1391.27
812 80913.6862.36189861.0592.32
912 76813.6476.00195790.6292.94
103 5153.7679.76205880.6393.57

新窗口打开

点击在该浏览记录数下的商品数量绘制散点图, 将横纵坐标取对数并添加趋势线后发现, 总体上用户对商品的浏览次数呈幂律分布, 如图3所示, 商品数量随用户浏览记录数量的增加而减少。

图3   用户浏览商品次数幂律分布图

   

其中有2-6条浏览记录的商品比较少, 推测可能是用户此时的购买意向尚不明确, 无法做出放弃或者购买的决策; 7-9条浏览记录的商品比较多, 推测可能是比较爽快的用户浏览到这个程度时有了比较明确的商品喜好判断, 直接放弃继续浏览或者做出购买决策。10条及以上的商品数量骤然下降后波动上升, 可能是比较谨慎的用户的购买习惯, 即广泛搜寻商品信息并充分比较后才能做出购买决策。

(4) 对单品的浏览程度越深越有可能查看店铺和点击分享

使用SPSS对浏览行为的相关性进行分析, 如表6所示。

表6   浏览行为相关性分析

   

查看商
品详情
浏览商品尺码规格、细节图、实拍图等详情浏览商品
评价、晒单
查看商
品大图
下拉浏览
商品详情
查看店
铺信息
查看店
铺热卖
查看店铺商品列表分享商品、店铺查看购物车
查看商品详情1.764**.757**.280**.846**.877**.838**.188**.772**.078**
浏览商品尺码规格、细
节图、实拍图等详情
1.738**.199**.739**.844**.910**.119**.811**.060**
浏览商品评价、晒单1.194**.724**.797**.775**.351**.852**.114**
查看商品大图1.177**.257**.221**.073**.211**.051**
下拉浏览商品详情1.798**.757**.198**.707**.069**
查看店铺信息1.930**.278**.877**.083**
查看店铺热卖1.160**.893**.063**
查看店铺商品列表1.384**.035**
分享商品、店铺1.087**
查看购物车1

(注: **在 0.01 级别(双尾), 相关性显著。)

新窗口打开

发现“进入单品页查看商品详情”、“浏览商品尺码规格、细节图、实拍图等详情”、“浏览商品评价、晒单”、“下拉浏览商品详情”、“查看店铺信息”、“查看店铺热卖”互相之间的相关性较高, 都在0.6以上(表6中标灰的数值)。其中“查看店铺信息”和“查看店铺热卖”之间的相关性更是达到0.930, 且这两个行为都与“分享商品、店铺”具有较高的相关性, 可见单品页上的“查看店铺热卖”吸引用户点击进入店铺页具有重要作用, 且用户对商品和店铺浏览的程度越深则分享商品的可能性就越大。而“查看商品大图”、“查看购物车”、“查看店铺商品列表”与各种浏览行为的相关性都不高。

4.2 购买行为特征

(1) 有9条浏览记录的商品购买数量最多

统计用户浏览记录数据和购买行为数据(见表7), 发现用户添加购物车、提交订单、进行支付的基本趋势是相同的, 比较浏览了1、2次的商品可以发现, 存在用户浏览1、2次就直接点击购买的商品, 而没有先加购物车再购买, 推测这样的商品有可能是二次购买, 用户已经比较熟悉商品的信息。浏览3-6次后进行购买的商品数量较少, 可见这样的商品用户的购买意向不明确, 购买的可能性较小。浏览7次后购买的商品数量逐渐增多, 从这开始用户的购买意向渐渐变得明确, 浏览9次后添加购物车、提交订单、进行购买的商品数量最多, 浏览超过9次的商品数量大大减少, 但加车、下单和支付的比例逐渐升高, 表明用户真正感兴趣的商品是少数。用户做出购买决策通常经过多次浏览行为。除前面的异常值外, 整体是浏览记录越多则购买比率越高。

表7   用户浏览记录数-购买行为数及占比表

   

浏览
记录
加车商
品数
加车/(当前浏览
记录的商品)%
下单商
品数
下单/(当前浏览记录
的商品)%
支付
商品数
支付/(当前浏览
记录的商品)%
10020.0120.01
20030.0920.06
310.120000
4121.0610.0910.09
5797.0320.1820.18
61003.29130.43110.36
7490.35250.18160.12
83412.66920.72610.48
98326.552151.681671.31
102657.54782.22531.51
111488.68382.23311.82
121515.14321.09240.82
131289.40443.23322.35
141209.14332.59271.62
15999.88282.82202.34
1617310.62493.06363.01
1722011.35653.29532.62
1822512.09933.53632.81
1913612.83503.76433.00
2011513.56484.00363.20

新窗口打开

(2) 添加购物车不一定支付, 而提交订单很可能会支付

使用SPSS为三种购买行为做相关性分析, 结果如表8所示, 发现“添加购物车”与“提交订单”、“成功支付”的相关性都很低, 分别是30.4%和29.1%, 且从前面的分析中可以看出用户主动查看购物车的记录也较少, 因此添加商品至购物车并不代表做出确定的购物决策, 用户可能只是对商品比较感兴趣, 存在购买的可能性。而“提交订单”与“成功支付”之间的相关性高达93.1%, 当用户提交订单后基本上做出确定的购买决策, 通常最终都会支付, 但仍存在少许放弃的可能。

表8   购买行为相关性分析表

   

添加购物车提交订单成功支付
添加购物车1.304**.291**
提交订单1.931**
成功支付1

(注: **在 0.01 级别(双尾), 相关性显著。)

新窗口打开

(3) 用户浏览单品和店铺信息越多、分享越多越有可能购买

用SPSS分析用户的三种购买行为与浏览行为的相关性, 结果如表9所示, 发现用户三种购买行为与各浏览行为的相关性基本一致, 皆与“查看商品详情”、“浏览商品尺码规格、细节图、实拍图等详情”、“浏览商品评价、晒单”、“下拉浏览商品详情”、“查看店铺信息”、“查看店铺热卖”、“分享商品、店铺”有较为显著的相关性。

表9   浏览行为与购买行为相关性分析表

   

添加购物车提交订单成功支付
查看商品详情.396**.423**.411**
浏览商品尺码规格、细节图、实拍图等详情.345**.342**.331**
浏览商品评价、晒单.315**.36**.353**
查看商品大图.19**.14**.132**
下拉浏览商品详情.387**.382**.371**
查看店铺信息.372**.398**.386**
查看店铺热卖.352**.373**.361**
查看店铺商品列表.079**.08**.078**
分享商品、店铺.318**.348**.339**
查看购物车.109**.071**.068**

(注: **在 0.01 级别(双尾), 相关性显著。)

新窗口打开

可见用户浏览单品和店铺信息越多、分享单品和店铺信息越多, 越有可能购买。三种购买行为与“查看商品大图”、“查看店铺商品列表”、“查看购物车”的相关性较低, 也就是说用户做出购买决策可能不需要专门点击商品大图, 或者进入店铺页查看店铺的其他商品, 也不需要反复查看购物车。

5 购买预测模型建立及检验

5.1 Logistic二元回归分析

(1) 建模

将“是否购买”中的“否”编码为“0”, “是”编码为“1”, 之前为均衡样本随机抽取的2 820条训练集数据导入SPSS进行Logistic二元回归分析。其中“购买”作为因变量, 其他全部浏览行为作为自变量, 选择“向前LR”方法, 经过7个步骤的运算后模型稳定。

关于模型拟合度的检验结果如表10所示, 这里用考克斯-斯奈尔R方和内戈尔科R方代替了线性回归中的R方, 其值越接近1, 说明拟合度越好。这里分别是0.455和0.606。

表10   模型摘要

   

步骤-2对数似然考克斯-斯奈尔R方内戈尔科R方
72198.826*.455.606

(注: 由于参数估算值的变化不足 .001, 因此估算在第8次迭代时终止。)

新窗口打开

在训练集随机均衡样本数据中所做的预测准确率如表11所示。“支付”商品预测正确率为74.6%, “不支付”商品预测正确率为91.8%, 总体预测正确率百分比为83.2%。

表11   训练集预测结果分类表

   

实测预测
支付正确百分比
.01.0
步骤7支付.01 29411691.8
1.03581 05274.6
总体百分比83.2

(注: 分界值为 0.500。)

新窗口打开

显著性都低于0.05, 具有统计学意义。“查看店铺信息”、“查看店铺商品列表”、“分享商品、店铺”三个变量被剔除。最终变量如表12所示。

表12   方程中的变量

   

B标准误差瓦尔德自由度显著性Exp(B)
查看商品详情.285.05922.9331.0001.329
浏览商品尺码规格、细节图、实拍图等详情-.118.0437.7301.005.888
浏览商品评价、晒单.074.0267.8551.0051.076
查看商品大图.421.1458.3981.0041.523
下拉浏览商品详情.724.10052.8001.0002.063
查看店铺热卖.554.11921.5751.0001.741
查看购物车1.021.27713.5591.0002.775
常量-2.471.105554.7321.000.085

新窗口打开

因此最终的拟合方程为:

Logit(B)=0.285×查看商品详情-0.118×浏览商品尺码规格、细节图、实拍图等详情+0.074×浏览商品评价、晒单+0.421×查看商品大图+0.724×下拉浏览商品详情+0.554×查看店铺热卖+1.021×查看购物车-2.471

“查看商品详情”与“查看店铺信息”、“查看店铺热卖”及“分享商品、店铺”行为有极强的相关性, 而“查看商品详情”加入模型的预测效果更好, 添加这三个变量对于模型的预测效果没有显著提升, 因此最终没有进入模型。

(2) 检验

利用其余1/5用户进行模型检验。将变量代入公式, 计算结果大于0.5为“支付”, 小于0.5的为“不支付”。对观测值和预测值的准确率分别进行统计, 结果如表13所示。

表13   测试集预测结果分类表

   

预测值
是否购买正确百分比
观测值是否购买26810971.09
97317 64294.77
总体百分比82.93

新窗口打开

其中“支付”商品预测正确率为71.09%, “不支付”商品预测正确率为94.77%%, 总体预测正确率百分比为82.93%, 在测试集上的预测效果与训练集是一致的。可见采用Logistic二元回归建立的拟合模型预测效果较好。

5.2 C&R决策树

对于用户购买行为, 笔者在抽样后的训练集上采用决策树的方法建立模型, 对测试集59位用户的浏览行为记录上进行预测。训练集规模为1 410个已购买的用户-商品对及1 410个未购买的训练商品对, 共2 820条记录。测试集规模为18 992个用户-商品对。

将19个request依照其实际意义划分为10个二级行为。对于用户的购买行为, 采取两种预测方法。第一种是先合并为二级行为再进行预测, 第二种是直接针对19个request进行预测。采用第一种方法时, 共有17 683条记录预测准确。具体情况如表14所示。

表14   方法一预测结果分类表

   

预测值
是否购买正确百分比
观测值是否购买2839475.07
1 21517 40093.47
总体百分比84.27

新窗口打开

采用第二种方法时, 共有17 776条记录预测准确。具体情况如表15所示。

表15   方法二预测结果分类表

   

预测值
是否购买正确百分比
观测值是否购买2789973.74
1 11717 49894.00
总体百分比83.87

新窗口打开

第一种方法在预测购买发生的情况下, 准确性略好于第二种方法, 但在预测购买未发生的情况下, 稍差于第二种方法。总体看来两种方法差距不大。方法一中, 预测是否购买仅通过“查看商品详情”这一预测变量就可以完成, 大于3.5次的商品会被购买, 置信度为0.895, 而小于3.5次的商品不会被购买, 置信度为0.767。具体决策树模型如图4所示。

图4   方法一决策树模型

   

方法二中, 通过Shop_intro和Statistics_single_ twitter两个request可以完成预测, 其背后的含义为查看店铺信息和查看单品信息。若查看店铺信息大于1.5次同时Statistics_single_twitter大于1.5次则会被购买。查看店铺信息小于1.5次, 或查看店铺信息大于1.5次, 但Statistics_single_twitter小于1.5次则不会被购买, 具体决策树模型如图5所示。

图5   方法二决策树模型

   

综合两种方法来看, 查看商品详情次数对用户的购买决策有着较强的预测能力, 甚至仅通过这一个变量就可以完成预测。另外查看店铺信息对用户是否购买也有一定影响, 用户在决定购买时, 往往也会更加关注店铺的情况。本研究得到的结论与直觉上是一致的。这反映了用户购买商品时的普遍心理: 商品的质量以及商品是否能满足消费者的需求是最重要的。一家信誉良好的店铺往往虚假宣传的风险较小, 商品质量较高, 也进一步认证了用户对于商品本身的关注。

6 结 语

本文利用某电商平台移动APP的服务器端用户使用日志, 分析用户对商品、店铺等的10种浏览行为, 以及与三种购买行为之间的关系, 并采用Logistic二元回归和C&R决策树两种方法建立商品支付购买预测模型。研究发现, 在用户的浏览行为特征方面, 用户在一周内对APP的使用较为平稳, 夜晚睡前达到使用高峰; 用户最关注单品详情, 而且会积极分享自己喜欢的商品和店铺信息; 用户对商品的浏览呈幂律分布, 90%的商品浏览记录都在16条以下; 用户对单品的浏览程度越深越有可能查看店铺信息和进行商品、店铺的分享。在用户的购买行为特征方面, 有9条浏览记录的商品发生三种购买行为的数量最多; 用户添加购物车不一定支付, 但提交订单通常会完成支付; 用户浏览单品和店铺信息越多、分享越多越有可能购买。

使用Logistic二元回归和C&R决策树两种方法对商品支付进行建模时发现, 查看商品详情对用户购买决策的形成最为重要, 店铺信息起到一定的辅助作用。两种方法的预测效果接近, Logistic二元回归预测的总体准确率为82.93%, 而C&R决策树使用的两种方法预测准确率分别是84.27%、83.87%; 但是Logistic二元回归建立的预测模型中的变量较多, 共7种, 而C&R决策树的两种方法分别是一个变量或两个变量。

本文研究结果可以帮助电商平台了解移动购物用户浏览及购买特征规律, 在使用高峰时间加强推送或者开展活动可以提升商品购买转化率; 用户对商品做出某些浏览行为时该商品极有可能被购买, 例如对商品和店铺信息浏览及分享较多, 平台可以提升该商品对于该用户的推送频率。本文的局限性在于, 此日志数据有很多是自动加载的数据, 因此不能准确反映用户的操作行为; 且由于数据埋点问题, 对于用户行为的解析有一定模糊性, 例如“浏览商品尺码规格、细节图、实拍图等详情”这一行为无法再具体细分为“浏览商品尺码规格”、“浏览商品细节图”等; 且数据都来自于重度用户, 结论可能不适于普通用户; 数据来自于3月份这个时间段, 可能会受前后浏览或购买行为的影响。未来将尝试为用户行为划分会话, 在更细的粒度上进行分析、预测。

作者贡献声明

张鹏翼: 研究设计, 部分数据分析, 文章修改;

王丹雪, 焦祎凡: 数据清洗, 部分数据分析, 部分初稿撰写;

陈秀雨: 数据清洗, 文献调研, 部分初稿撰写;

王军: 研究设计。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: pengyi@pku.edu.cn。

[1] 张鹏翼, 王丹雪, 焦祎凡, 陈秀雨, 王军. 用户日志.csv. 移动电商用户日志记录.


参考文献

[1] 中国互联网络信息中心. 第39次《中国互联网络发展状况统计报告》[R]. 2017.

[本文引用: 1]     

(CNNIC. The Report of the 39th China Internet Development Statistics [R]. 2017.)

[本文引用: 1]     

[2] 陆敏玲, 曹玉枝, 鲁耀斌.

基于移动商务特征视角的移动购物用户采纳行为研究

[J]. 情报杂志, 2012, 31(9): 202-207.

URL      [本文引用: 1]      摘要

从移动商务特征的视角,结合感知风险和感知费用,构建了移动购物用户采纳研究模型,分析影响用户移动购物使用意愿的促进因素和阻碍因素。通过问卷调查方式对模型和假设进行检验,结果表明移动商务三个显著特征感知无处不在、感知个性化和感知情境提供以及感知风险对用户移动购物使用意愿有显著影响。据此为移动购物服务商提出了提升用户采纳的对策建议。

(Lu Minling, Cao Yuzhi, Lu Yaobin.

A Study on Consumers’ Adoption of Mobile Shopping Services from a Perspective of Features in the Mobile Environment

[J].Journal of Intelligence, 2012, 31(9): 202-207.)

URL      [本文引用: 1]      摘要

从移动商务特征的视角,结合感知风险和感知费用,构建了移动购物用户采纳研究模型,分析影响用户移动购物使用意愿的促进因素和阻碍因素。通过问卷调查方式对模型和假设进行检验,结果表明移动商务三个显著特征感知无处不在、感知个性化和感知情境提供以及感知风险对用户移动购物使用意愿有显著影响。据此为移动购物服务商提出了提升用户采纳的对策建议。
[3] QuestMobile. QuestMobile-移动互联网2017春季报告: 我们想聊聊10亿+用户之后的APP江湖 [R]. 2017.

[本文引用: 1]     

(QuestMobile. Mobile Internet Spring 2017 Report: Let’s Talk About a Country of Apps with 1 Billion+ Users [R].2017.)

[本文引用: 1]     

[4] 王知津, 韩正彪, 周鹏.

电子商务网站顾客信息搜寻行为形成机制研究

[J]. 图书与情报, 2011(3): 12-16.

https://doi.org/10.3969/j.issn.1003-6938.2011.03.004      URL      [本文引用: 1]      摘要

文章提出电子商务网站顾客信息搜寻行为属于图书情报领域用户信息 搜索行为与市场营销领域网络用户信息搜寻行为的交叉部分.在分析电子商务网站顾客信息搜寻行为的理论基础上,构建了基于理论基础、搜寻阶段和影响因素的三 层次的顾客信息搜寻行为过程模型,从触发、网站选择、商品检索、店内信息浏览和比较评价五个阶段对顾客信息搜寻行为的形成机制进行了探索.

(Wang Zhijin, Han Zhengbiao, Zhou Peng.

The Formation Mechanism of the Customer Information Search Behavior in E-commerce Website

[J]. Library & Information, 2011(3): 12-16.)

https://doi.org/10.3969/j.issn.1003-6938.2011.03.004      URL      [本文引用: 1]      摘要

文章提出电子商务网站顾客信息搜寻行为属于图书情报领域用户信息 搜索行为与市场营销领域网络用户信息搜寻行为的交叉部分.在分析电子商务网站顾客信息搜寻行为的理论基础上,构建了基于理论基础、搜寻阶段和影响因素的三 层次的顾客信息搜寻行为过程模型,从触发、网站选择、商品检索、店内信息浏览和比较评价五个阶段对顾客信息搜寻行为的形成机制进行了探索.
[5] 袁兴福, 张鹏翼, 王军.

电商用户“状态-行为”建模及其在商品信息搜索行为分析的应用

[J]. 现代图书情报技术, 2015(6): 93-100.

[本文引用: 2]     

(Yuan Xingfu, Zhang Pengyi, Wang Jun.

“State-Behavior” Modeling and Its Application in Analyzing Product Information Seeking Behavior of E-commerce Websites Users

[J]. New Technology of Library and Information Service, 2015(6): 93-100.)

[本文引用: 2]     

[6] 袁兴福, 张鹏翼, 刘洪莲, .

基于点击流的电商用户会话建模

[J]. 图书情报工作, 2015, 59(1): 119-126.

https://doi.org/10.13266/j.issn.0252-3116.2015.01.016      URL      [本文引用: 1]      摘要

[目的/意义]鉴于已有基于点击流的用户模型大多简单地采用页面类型序列代替行为序列,提出一种根据点击流访问页面序列到用户行为的映射方案,解决用户行为建模的问题。[方法/过程]本文在分析网页URL参数、页面内容等特征的基础上,以81 759个电商用户会话为测试样本,提出并实现从页面到用户行为的映射方法,给出一种依据原始日志建立用户行为序列来描述会话的方案。[结果/结论]分析反映出在会话层面上已有研究不易得到的行为特征,得到6类具备不同行为模式的会话:功能探索会话、卖家管理会话、营销推动会话、资料管理会话、商品浏览会话、检索依赖会话。基于点击流对用户会话建模,可以得出用户会话中行为序列特征,对实现准确营销与推荐具有重要价值。

(Yuan Xingfu, Zhang Pengyi, Liu Honglian, et al.

Modeling E-commerce User Session Behaviors Based on Click-through Sequences

[J]. Library and Information Service, 2015, 59(1): 119-126.)

https://doi.org/10.13266/j.issn.0252-3116.2015.01.016      URL      [本文引用: 1]      摘要

[目的/意义]鉴于已有基于点击流的用户模型大多简单地采用页面类型序列代替行为序列,提出一种根据点击流访问页面序列到用户行为的映射方案,解决用户行为建模的问题。[方法/过程]本文在分析网页URL参数、页面内容等特征的基础上,以81 759个电商用户会话为测试样本,提出并实现从页面到用户行为的映射方法,给出一种依据原始日志建立用户行为序列来描述会话的方案。[结果/结论]分析反映出在会话层面上已有研究不易得到的行为特征,得到6类具备不同行为模式的会话:功能探索会话、卖家管理会话、营销推动会话、资料管理会话、商品浏览会话、检索依赖会话。基于点击流对用户会话建模,可以得出用户会话中行为序列特征,对实现准确营销与推荐具有重要价值。
[7] Farag N I, Smith M D, Krishnan M S.

The Consumer Online Purchase Decision: A Model of Consideration Set Formation and Buyer Conversion Rate Across Market Leaders and Market Followers

[C]//Proceedings of the International Conference on Information Systems. 2003: 283-295.

[本文引用: 1]     

[8] 王军, 李鑫.

自我效能对网评信息查寻行为的影响研究

[J]. 图书情报工作, 2014, 58(14): 110-114.

https://doi.org/10.13266/j.issn.0252-3116.2014.14.016      URL      [本文引用: 1]      摘要

结合网评信息的特点与信息行为研究,以自我效能为基础建立网评信息查寻行为模型。根据模型探讨消费者的自我效能在网评信息需求、查找、收集、筛选以及判定信息需求满足5个阶段对查寻行为产生的影响。最后,为增强消费者运用网评信息的效果,从提高消费者自我效能和帮助网商改善网评检索系统等方面提出建议。

(Wang Jun, Li Xin.

Research on the Impact of Self-efficacy on Network Information Seeking Behavior

[J]. Library and Information Service, 2014, 58(14): 110-114.)

https://doi.org/10.13266/j.issn.0252-3116.2014.14.016      URL      [本文引用: 1]      摘要

结合网评信息的特点与信息行为研究,以自我效能为基础建立网评信息查寻行为模型。根据模型探讨消费者的自我效能在网评信息需求、查找、收集、筛选以及判定信息需求满足5个阶段对查寻行为产生的影响。最后,为增强消费者运用网评信息的效果,从提高消费者自我效能和帮助网商改善网评检索系统等方面提出建议。
[9] 范敏, 邓小昭.

网络环境下消费者信息查寻行为研究

[J]. 现代情报, 2011, 31(12): 37-40.

[本文引用: 1]     

(Fan Min, Deng Xiaozhao.

Study of Online Consumer’s Information Seeking Behavior

[J]. Modern Information, 2011, 31(12): 37-40.)

[本文引用: 1]     

[10] 许应楠.

消费者在线购物决策中的商品参数浏览偏好分析——以数码相机为例

[J]. 现代图书情报技术, 2012(12): 52-57.

[本文引用: 2]     

(Xu Yingnan.

Analysis of Commodity Parameters Browsing Preference in Consumer’s Online Shopping Decision-making——Taking Digital Camera for Example

[J]. New Technology of Library and Information Service, 2012(12): 52-57.)

[本文引用: 2]     

[11] 刘洪莲, 张鹏翼, 王军.

多会话网络购物商品信息搜寻行为研究

[J]. 图书情报工作, 2015, 59(14): 117-125.

https://doi.org/10.13266/j.issn.0252-3116.2015.14.017      URL      [本文引用: 2]      摘要

[目的/意义]研究用户在多会话网购过程中的信息浏览、检索行为及其行为序列特征,以期更好地理解用户的复杂网购行为,指导购物网站提高服务质量,改善用户体验。[方法/过程]基于某电商网站1993名用户的11514个购物任务的网购访问日志,在识别多会话网购任务的基础上,对用户在经多个会话进行网购过程中的信息搜寻行为进行统计分析,并利用顺序分析和聚类分析方法挖掘其典型的行为模式。[结果/结论]当会话数量为8个及以下时,用户的浏览和搜索行为呈现出明显的规律性变化,且前4个会话发生时是用户做出购物决策的关键阶段;用户在多会话网购过程中存在6种典型的信息搜寻行为模式,分别有不同的信息搜寻行为特征。理解用户的复杂网购行为,可为电商网站设计导航和推荐策略、制定营销方案提供依据。

(Liu Honglian, Zhang Pengyi, Wang Jun.

Product Information Seeking Behavior of Multi-session Online Shopping Tasks

[J]. Library and Information Service, 2015, 59(14): 117-125.)

https://doi.org/10.13266/j.issn.0252-3116.2015.14.017      URL      [本文引用: 2]      摘要

[目的/意义]研究用户在多会话网购过程中的信息浏览、检索行为及其行为序列特征,以期更好地理解用户的复杂网购行为,指导购物网站提高服务质量,改善用户体验。[方法/过程]基于某电商网站1993名用户的11514个购物任务的网购访问日志,在识别多会话网购任务的基础上,对用户在经多个会话进行网购过程中的信息搜寻行为进行统计分析,并利用顺序分析和聚类分析方法挖掘其典型的行为模式。[结果/结论]当会话数量为8个及以下时,用户的浏览和搜索行为呈现出明显的规律性变化,且前4个会话发生时是用户做出购物决策的关键阶段;用户在多会话网购过程中存在6种典型的信息搜寻行为模式,分别有不同的信息搜寻行为特征。理解用户的复杂网购行为,可为电商网站设计导航和推荐策略、制定营销方案提供依据。
[12] 刘洪莲, 张鹏翼, 王军.

多会话商品信息搜寻行为、情境及影响因素研究

[J]. 现代图书情报技术, 2016(4): 1-7.

[本文引用: 4]     

(Liu Honglian, Zhang Pengyi, Wang Jun.

Multi-session Product Information Seeking Behaviors, Motivation, and Influencing Factors

[J]. New Technology of Library and Information Service, 2016 (4): 1-7.)

[本文引用: 4]     

[13] Ji J, Liu C, Sha Z, et al.

Personalized Recommendation Based on a Multilevel Customer Model

[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2005, 19(7): 895-916.

https://doi.org/10.1142/S021800140500437X      URL      [本文引用: 1]      摘要

Personalized recommendation needs powerful Web Intelligence (WI) technologies to manage, analyze and employ various business data on the Web for e-business intelligence. This paper presents a novel recommendation framework on the Web, which is based on a multilevel customer model comprising three submodels, namely, the customer shopping model (CSM), the customer preference model (CPM), and the customer consumption model (CCM). These models capture a customer's information from different aspects. After preprocessing of raw data, we first build the CSM based on Bayesian networks by mining from customer shopping transactions, and then find the CPM by analyzing customer shopping history. Furthermore, the customer purchasing power can be formalized as a linear CCM. By combining the CSM with the present customer shopping action, a recommendation algorithm based on Bayesian probability inference is used to generate an individual recommendation set of commodities. A personalized filter including customization of the CPM and orientation of the CCM is also used to realize a more personalized recommendation. Experimental evaluation on real world data shows that the proposed approach can achieve personalized commodities recommendation efficiently and effectively.
[14] 纪征.

基于用户兴趣模型的电子商务网站推荐技术比较及启示

[J]. 图书情报工作, 2010, 54(16): 138-140.

URL      [本文引用: 1]      摘要

介绍用户兴趣模型、推荐系统以及协同过滤推荐技术、基于内容、基于人口统计、基于知识、基于效用、基于关联规则的推荐技术等主流推荐技术,并对六种推荐技术从应用角度进行深入比较研究,最终提出将协同过滤推荐技术、基于关联规则的推荐技术与基于效用的推荐技术综合运用的组合推荐技术的构思,认为应当构建以用户为中心、基于用户兴趣模型的推荐技术.

(Ji Zheng.

Recommendation Technology Based on User’s Interest Model for the E-commerce Site

[J].Library and Information Service, 2010, 54(16): 138-140.)

URL      [本文引用: 1]      摘要

介绍用户兴趣模型、推荐系统以及协同过滤推荐技术、基于内容、基于人口统计、基于知识、基于效用、基于关联规则的推荐技术等主流推荐技术,并对六种推荐技术从应用角度进行深入比较研究,最终提出将协同过滤推荐技术、基于关联规则的推荐技术与基于效用的推荐技术综合运用的组合推荐技术的构思,认为应当构建以用户为中心、基于用户兴趣模型的推荐技术.
[15] Qiu J, Lin Z, Li Y.

Predicting Customer Purchase Behavior in the E-commerce Context

[J]. Electronic Commerce Research, 2015, 15(4): 427-452.

https://doi.org/10.1007/s10660-015-9191-6      URL      [本文引用: 1]      摘要

Predicting customer purchase behavior is an interesting and challenging task. In the e-commerce context, meeting this challenge requires confronting many problems not observed in the traditional business context. Recommender system technology has been widely adopted by e-commerce websites. However, a traditional recommendation algorithm cannot perform well the predictive task in this context. This study intends to build a predictive framework for customer purchase behavior in the e-commerce context. This framework, known as C ust O mer purchase p RE diction mode L (COREL), may be understood as a two-stage process. First, associations among products are investigated and exploited to predicate customer motivations, i.e., to build a candidate product collection. Next, customer preferences for product features are learned and subsequently used to identify the candidate products most likely to be purchased. This study investigates three categories of product features and develops methods to detect customer preferences for each of these three categories. When a product purchased by a particular consumer is submitted to COREL, the program can return the top n products most likely to be purchased by that customer in the future. Experiments conducted on a real dataset show that customer preference for particular product features plays a key role in decision-making and that COREL greatly outperforms the baseline methods.
[16] Li Q, Gu M, Zhou K, et al.

Multi-Classes Feature Engineering with Sliding Window for Purchase Prediction in Mobile Commerce

[C]// Proceedings of the IEEE International Conference on Data Mining Workshop, 2016.

[本文引用: 1]     

[17] Gupta R, Pathak C.

A Machine Learning Framework for Predicting Purchase by Online Customers Based on Dynamic Pricing

[J]. Procedia Computer Science, 2014, 36: 599-605.

https://doi.org/10.1016/j.procs.2014.09.060      URL      [本文引用: 1]      摘要

Pricing in the online world is highly transparent & can be a primary driver for online purchase. While dynamic pricing is not new & used by many to increase sales and margins, its benefit to online retailers is immense. The proposed study is a result of ongoing project that aims to develop a generic framework and applicable techniques by applying sound machine learning algorithms to enhance right price purchase (not cheapest price) by customers on e-commerce platform. This study focuses more on inventory led e-commerce companies, however the model can be extended to online marketplaces without inventories. Facilitated by statistical and machine learning models the study seeks to predict the purchase decisions based on adaptive or dynamic pricing of a product. Different data sources which capture visit attributes, visitor attributes, purchase history, web data, and context understanding, lays a strong foundation to this framework. The study focuses on customer segments for predicting purchase rather than on individual buyers. Personalization of adaptive pricing and purchase prediction will be the next logical extension of the study once the results for this are presented. Web mining and use of big data technologies along with machine learning algorithms make up the solution landscape for the study.
[18] 曾宪宇, 刘淇, 赵洪科, .

用户在线购买预测: 一种基于用户操作序列和选择模型的方法

[J]. 计算机研究与发展, 2016, 53(8): 1673-1683.

[本文引用: 1]     

(Zeng Xianyu, Liu Qi, Zhao Hongke, et al.

Online Consumptions Prediction via Modeling User Behaviors and Choices

[J].Journal of Computer Research and Development, 2016, 53(8): 1673-1683.)

[本文引用: 1]     

[19] 吴国华, 潘德惠.

顾客购买行为影响因素分析及重购概率的预测

[J]. 管理工程学报, 2005, 19(1): 104-107.

[本文引用: 1]     

(Wu Guohua, Pan Dehui.

Analyzing the Main Elements of Customer Purchase Behavior and Predicting the Probability of Customer Repurchase

[J]. Journal of Industrial Engineering, 2005, 19(1): 104-107.)

[本文引用: 1]     

[20] 张阔, 李桂华, 李燕飞.

我国城市消费者寿险购买行为的影响因素及预测

[J]. 数理统计与管理, 2011, 30(2): 291-298.

URL      [本文引用: 2]      摘要

通过文献回顾、专家访谈和问卷调查,确定了8种对消费者寿险购买行为有重要影响的个体态度变量。根据在全国10个城市进行问卷调查所获得的态度变量和人口统计学变量数据,采用判别分析和Logistic回归的方法分别建立了消费者寿险购买行为的预测模型。对模型的评价表明,2个模型都有较好的预测精度;若将两个模型的联合应用,能取得更好的预测效果,对寿险营销管理具有重要的参考价值。

(Zhang Kuo, Li Guihua, Li Yanfei.

The Development of Forecasting Model on Consumers Life Insurance Purchasing by Discriminant Analysis and Logistic Regression

[J]. Journal of Applied Statistics and Management, 2011, 30(2): 291-298.)

URL      [本文引用: 2]      摘要

通过文献回顾、专家访谈和问卷调查,确定了8种对消费者寿险购买行为有重要影响的个体态度变量。根据在全国10个城市进行问卷调查所获得的态度变量和人口统计学变量数据,采用判别分析和Logistic回归的方法分别建立了消费者寿险购买行为的预测模型。对模型的评价表明,2个模型都有较好的预测精度;若将两个模型的联合应用,能取得更好的预测效果,对寿险营销管理具有重要的参考价值。
[21] 毛乾任, 王朝斌.

基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘

[J]. 重庆理工大学学报, 2015, 29(2): 76-81.

[本文引用: 2]     

(Mao Qianren, Wang Chaobin.

Data Mining on College Students’ Laptop Purchase Behavior Based on Decision Tree C4.5

[J].Journal of Chongqing University of Technology: Natural Science, 2015, 29(2): 76-81.)

[本文引用: 2]     

[22] 冯秀荣, 冷静, 刘海.

C5.0决策树算法在移动阅读用户流失中的应用

[J]. 北京信息科技大学学报: 自然科学版, 2016, 31(1): 84-89.

https://doi.org/10.16508/j.cnki.11-5866/n.2016.01.017      URL      [本文引用: 1]      摘要

针对移动阅读用户的流失问题,运用C5.0决策树算法,提炼出40多个与用户行为相关的指标,且根据不同平台之间用户的行为差异,分别搭建Android用户流失预测模型及WAP用户流失预测模型。模型训练结果显示,模型具有较好的覆盖率及稳定性。模型实现按天预测用户是否流失,将预测结果融入到日常运营当中,可提升用户运营效率。

(Feng Xiurong, Leng Jing, Liu Hai.

Application of C5.0 Decision Tree Algorithm to Loss of Mobile Reading Users

[J]. Journal of Beijing Information Science & Technology University, 2016, 31(1): 84-89.)

https://doi.org/10.16508/j.cnki.11-5866/n.2016.01.017      URL      [本文引用: 1]      摘要

针对移动阅读用户的流失问题,运用C5.0决策树算法,提炼出40多个与用户行为相关的指标,且根据不同平台之间用户的行为差异,分别搭建Android用户流失预测模型及WAP用户流失预测模型。模型训练结果显示,模型具有较好的覆盖率及稳定性。模型实现按天预测用户是否流失,将预测结果融入到日常运营当中,可提升用户运营效率。
[23] 朱彤, 刘奕群, 茹立云, .

基于用户行为的长查询用户满意度分析

[J]. 模式识别与人工智能, 2012, 25(3): 469-474.

https://doi.org/10.3969/j.issn.1003-6059.2012.03.016      URL      Magsci      [本文引用: 1]      摘要

搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.

(Zhu Tong, Liu Qiqun, Ru Liyun, et al.

Long Query User Satisfaction Analysis Based on User Behaviors

[J]. PR & AI, 2012, 25(3): 469-474.)

https://doi.org/10.3969/j.issn.1003-6059.2012.03.016      URL      Magsci      [本文引用: 1]      摘要

搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.
[24] 张晨阳, 余荣, 张浩川.

基于决策树的移动互联网用户付费意愿分析与预测

[J]. 无线互联科技, 2017(15): 21-23.

URL      [本文引用: 1]      摘要

针对开放移动互联网下难以识别和跟踪潜在用户,无法提供更具个性化服务的状况,文章在传统决策树分类器的基础上,提取用户基础数据特征,引入感知模型分析处理用户行为数据,提出一种基于决策树的移动互联网用户付费分类预测方法。该方法强化用户感知对付费行为的影响,利用决策树建模进行分类并最终作出付费预测,根据模型结果探究付费影响因素,从运营者角度思考如何提高用户的付费意愿。

(Zhang Chenyang, Yu Rong, Zhang Haochuan.

Analysis and Prediction of Willingness to Pay for Mobile Networks Users Based on Decision Tree

[J]. Wireless Internet Technology, 2017(15): 21-23.)

URL      [本文引用: 1]      摘要

针对开放移动互联网下难以识别和跟踪潜在用户,无法提供更具个性化服务的状况,文章在传统决策树分类器的基础上,提取用户基础数据特征,引入感知模型分析处理用户行为数据,提出一种基于决策树的移动互联网用户付费分类预测方法。该方法强化用户感知对付费行为的影响,利用决策树建模进行分类并最终作出付费预测,根据模型结果探究付费影响因素,从运营者角度思考如何提高用户的付费意愿。
[25] 王济川, 郭志刚. Logistic回归模型: 方法与应用[M]. 北京: 高等教育出版社, 2001.

[本文引用: 1]     

(Wang Jichuan, Guo Zhigang.Logistic Regression Model: Methods and Application [M]. Beijing: Higher Education Press, 2001.)

[本文引用: 1]     

[26] 何晓群. 多元统计分析[M].第4版. 北京: 中国人民大学出版社, 2015.

[本文引用: 1]     

(He Xiaoqun.Multivariate Statistical Analysis [M]. The 4th Edition. Beijing: China Renmin University Press, 2015.)

[本文引用: 1]     

[27] 唐华松, 姚耀文.

数据挖掘中决策树算法的探讨

[J]. 计算机应用研究, 2001, 18(8): 18-19, 22.

[本文引用: 1]     

(Tang Huasong, Yao Yaowen.

Research on Decision Tree in Data Mining

[J]. Application Research of Computers, 2001, 18(8): 18-19, 22.)

[本文引用: 1]     

[28] 杨杰明, 闫欣, 曲朝阳, .

基于数据密度分布的欠采样方法研究

[J]. 计算机应用研究, 2016, 33(10): 2997-3000.

https://doi.org/10.3969/j.issn.1001-3695.2016.10.029      URL      [本文引用: 1]      摘要

针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取六组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。

(Yang Jieming, Yan Xin, Qu Zhaoyang, et al.

Under-sampling Technique Based on Data Density Distribution

[J]. Application Research of Computers, 2016, 33(10): 2997-3000.)

https://doi.org/10.3969/j.issn.1001-3695.2016.10.029      URL      [本文引用: 1]      摘要

针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取六组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。
[29] 黄卫来, 潘晓波.

在线商品评价信息有用性模型研究——纳入应用背景因素的信息采纳扩展模型

[J]. 图书情报工作, 2014, 58(S1): 141-151.

URL      [本文引用: 1]      摘要

将在线商品评价信息应用背景因素——评价信息的可借鉴性纳入模型,根据ELM思路和信息采纳模型框架,构建在线商品评价信息有用性的三维模型。对模型中信息质量和信息可信度维度结合已有研究成果和网购特殊环境重新识别其构成要素,并探究各构成要素基于二手资料的测量指标,为实际应用领域中建立独立于消费者主观数据的评价有用性自动识别机制提供参考。综合实证结果研究发现,在对在线商品评价信息进行处理时,阅读者更多的启用中心路线,边缘路线的作用由于评价发布者信息的有限性以及消费者之间较低的关联度而降低,应用背景因素对于在线评价信息有用性有着显著影响。

(Huang Weilai, Pan Xiaobo.

The Usefulness Model of Online Product Reviews: The Extensive Information Adoption Model Bringing into the Application Environment

[J]. Library and Information Service, 2014, 58(S1): 141-151.)

URL      [本文引用: 1]      摘要

将在线商品评价信息应用背景因素——评价信息的可借鉴性纳入模型,根据ELM思路和信息采纳模型框架,构建在线商品评价信息有用性的三维模型。对模型中信息质量和信息可信度维度结合已有研究成果和网购特殊环境重新识别其构成要素,并探究各构成要素基于二手资料的测量指标,为实际应用领域中建立独立于消费者主观数据的评价有用性自动识别机制提供参考。综合实证结果研究发现,在对在线商品评价信息进行处理时,阅读者更多的启用中心路线,边缘路线的作用由于评价发布者信息的有限性以及消费者之间较低的关联度而降低,应用背景因素对于在线评价信息有用性有着显著影响。
[30] 云小风.

消费者在线购物车放弃行为影响因素的实证研究

[J]. 图书情报工作, 2011, 55(2): 139-142.

URL      [本文引用: 1]      摘要

网络购物的迅速发展,带来消费者在线购物车放弃行为的盛行。这一放弃行为,受到成本、商品、流程、服务、安全和经验等因素的影响,并据此提出研究假设与模型。实证研究表明,当网购成本、网购商品、网购流程、网购服务、网购安全与消费者心理预期越不相符时,当消费者网购经验越丰富时,消费者在线购物车放弃行为的可能性越大。

(Yun Xiaofeng.

An Empirical Research on the Determinants of Consumers’ Online Shopping Cart Abandonment

[J]. Library and Information Service, 2011, 55(2): 139-142.)

URL      [本文引用: 1]      摘要

网络购物的迅速发展,带来消费者在线购物车放弃行为的盛行。这一放弃行为,受到成本、商品、流程、服务、安全和经验等因素的影响,并据此提出研究假设与模型。实证研究表明,当网购成本、网购商品、网购流程、网购服务、网购安全与消费者心理预期越不相符时,当消费者网购经验越丰富时,消费者在线购物车放弃行为的可能性越大。
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/