Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (1): 51-63    DOI: 10.11925/infotech.2096-3467.2017.0890
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于用户浏览日志的移动购买预测研究*
张鹏翼(),王丹雪,焦祎凡,陈秀雨,王军
北京大学信息管理系 北京 100871
Predicting Mobile Purchase Decisions Based on User Browsing Logs
Pengyi Zhang(),Danxue Wang,Yifan Jiao,Xiuyu Chen,Jun Wang
Department of Information Management, Peking University, Beijing 100871, China
全文: PDF(700 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

目的】对用户在移动购物APP进行的信息浏览与商品购买行为特征进行描述分析, 并尝试预测商品购买。【方法】在日志请求参数与用户信息行为类型之间建立映射, 得到用户的行为解析, 进一步分析用户行为特征后, 使用Logistic二元回归和C&R决策树两种方法建立商品支付购买预测模型。实验数据来自2015年3月某移动购物APP的290位重度用户的3 923 429条服务器端日志。【结果】在用户浏览行为特征方面, 用户周内使用平稳, 夜晚睡前达到高峰; 最关注单品详情, 浏览程度越深越有可能查看店铺信息并进行商品、店铺信息的分享; 用户对商品的浏览呈幂律分布, 90%的商品浏览记录都在16条以下。在用户购买行为特征方面, 有9条浏览记录的商品、提交了订单的商品最有可能被购买; 商品购买与浏览、分享单品和店铺信息次数呈正相关。在商品支付购买预测方面, C&R决策树预测准确率稍高于Logistic二元回归, 然而变量种类远少于后者。【局限】日志数据可能不能准确反映用户的操作行为; 对于用户行为的解析有一定模糊性; 数据来自重度用户, 可能不具有普适性; 数据来自于3月份这个时间段, 可能会受前后浏览或购买行为的影响。【结论】用户浏览及购买行为特征可帮助移动购物APP完善产品功能, 提升用户体验; Logistic二元回归相比于C&R决策树可以更好地预测商品支付购买。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张鹏翼
王丹雪
焦祎凡
陈秀雨
王军
关键词 信息浏览信息行为购买预测移动购物移动电商    
Abstract

[Objective] This research characterizes users’ browsing patterns, aiming to predict their purchasing decisions on mobile shopping applications. [Methods] First, we mapped the request parameters of the logs with users’ information behavior types. Then, we used logistic binary regression and C&R decision tree techniques to establish models to predict the buying decisions. The data set included 3,923,429 lines of server logs generated by 290 heavy users of a popular mobile shopping app in March 2015. [Results] We found that the frequency of users’ browsing behaviors was stable during the weekdays and reached its peak every night before bedtime. Users paid much attention to product details and those with deeper browsing behaviors are more likely to read introduction to the shop and share related information. The number of views was in line with the power-law distribution and 90% of the merchandise was checked less than 16 times. We also found that goods viewed by 9 times and placed in the carts were most likely to be bought. There was a positive correlation between the purchases of goods and the numbers of views or sharing of the item and the shop. The C&R decision tree model’s prediction accuracy was slightly higher than that of the Logistic binary regression model. However, the former’s variable types were far less than the latter. [Limitations] Logs cannot fully reflect all users’ behaviors, which lead to some ambiguity of our analysis. The conclusion might not tell the whole story since the logs were generated by heavy users in one month. [Conclusions] The pattern of user browsing and buying behaviors could be used to enhance their experience of the mobile shopping applications. Logistic binary regression might better predict users’ buying decisions than the C&R decision trees model.

Key wordsInformation Browsing    Information Behavior    Purchase Decision    Mobile Shopping    Mobile Electricity Business
收稿日期: 2017-09-06     
基金资助:*本文系国家自然科学基金项目“面向电子商务生态平衡的目录导购机制研究”(项目编号: 71373015)的研究成果之一
引用本文:   
张鹏翼,王丹雪,焦祎凡,陈秀雨,王军. 基于用户浏览日志的移动购买预测研究*[J]. 数据分析与知识发现, 2018, 2(1): 51-63.
Pengyi Zhang,Danxue Wang,Yifan Jiao,Xiuyu Chen,Jun Wang. Predicting Mobile Purchase Decisions Based on User Browsing Logs. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.0890.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0890
字段 含义 字段 含义
log_date 登录时间 request_params 请求参数
h、m、s 时、分、秒 shop_id 店铺ID
uri 用户访问链接 twitter_id 商品ID
request_name 请求名 user_id 用户ID
表1  服务器端日志数据结构
字段 含义 字段 含义
user_id 用户ID order_create_time 订单生成时间
twitter_id 商品ID pay_time 支付时间
order_id 订单ID
表2  订单表结构
一级行为 二级行为 备注
浏览
行为
浏览商品详情 查看商品详情 进入单品页查看商品详情
浏览单个商品信息(单品页主体信息, 预加载)
浏览商品尺码规格、细节图、
实拍图等详情
点击详情、尺码、评价或规格等标签
浏览单个商品信息(饰品、包包等某些特殊商品的特殊规格:
质地、硬度、是否镶嵌等)
单品页下方的商品细节图、实拍图等
浏览单个商品信息(单品页详细信息, 主要是实拍图、尺码等)
浏览商品评价、晒单 单品页上点击“评论”, 查看商品所有评论
单品页上的评价列表信息
商品下的购物晒单列表
查看商品大图 浏览单个商品信息(单品页点击主图, 查看商品大图)
下拉浏览商品详情 下拉浏览商品详情
浏览店铺详情 查看店铺信息 单品页上的店铺简介。单品页预加载会多次请求
浏览店铺信息
查看店铺热卖 单品页上的店铺热销。单品页预加载同样多次请求
查看店铺商品列表 浏览店铺商品列表, 会随着用户下拉不停地刷新, 筛选不同选项卡
和价格会重新刷新
分享商品、店铺 点击分享按钮
分享店铺、商品信息
查看购物车 在单品页或者活动页右上角点击icon查看购物车或点击查看购物车
购买行为 添加购物车 将商品添加到购物车
提交订单 选择商品后提交订单
成功支付 支付完成订单
表3  行为类别表
图1  用户浏览日志周变化趋势
图2  用户浏览日志条数及发生购买相关行为的商品数量日均变化
日志记录 频次 占比(%)
查看商品详情 180 198 21.10
浏览商品尺码规格、细节图、
实拍图等详情
172 089 20.15
浏览商品评价、晒单 161 720 18.94
分享商品、店铺 89 539 10.48
查看店铺热卖 88 363 10.35
查看店铺信息 86 775 10.16
下拉浏览商品详情 40 430 4.73
查看店铺商品列表 9 554 1.12
查看商品大图 7 100 0.83
添加购物车 5 995 0.70
提交订单 2 530 0.30
成功支付 1 955 0.23
查看购物车 1 798 0.21
表4  用户日志记录及占比分析
浏览记录 商品总数 占比(%) 累计百分比(%) 浏览记录 商品总数 占比(%) 累计百分比(%)
1 22 411 23.94 23.94 11 1 706 1.82 81.58
2 3 233 3.45 27.39 12 2 940 3.14 84.72
3 825 0.88 28.27 13 1 361 1.45 86.17
4 1 135 1.21 29.48 14 1 667 1.78 87.95
5 1 124 1.20 30.68 15 855 0.91 88.86
6 3 044 3.25 33.93 16 1 195 1.28 90.14
7 13 809 14.75 46.48 17 1 055 1.13 91.27
8 12 809 13.68 62.36 18 986 1.05 92.32
9 12 768 13.64 76.00 19 579 0.62 92.94
10 3 515 3.76 79.76 20 588 0.63 93.57
表5  用户浏览记录数-商品数量表
图3  用户浏览商品次数幂律分布图
查看商
品详情
浏览商品尺码规格、细节图、实拍图等详情 浏览商品
评价、晒单
查看商
品大图
下拉浏览
商品详情
查看店
铺信息
查看店
铺热卖
查看店铺商品列表 分享商品、店铺 查看购物车
查看商品详情 1 .764** .757** .280** .846** .877** .838** .188** .772** .078**
浏览商品尺码规格、细
节图、实拍图等详情
1 .738** .199** .739** .844** .910** .119** .811** .060**
浏览商品评价、晒单 1 .194** .724** .797** .775** .351** .852** .114**
查看商品大图 1 .177** .257** .221** .073** .211** .051**
下拉浏览商品详情 1 .798** .757** .198** .707** .069**
查看店铺信息 1 .930** .278** .877** .083**
查看店铺热卖 1 .160** .893** .063**
查看店铺商品列表 1 .384** .035**
分享商品、店铺 1 .087**
查看购物车 1
表6  浏览行为相关性分析
浏览
记录
加车商
品数
加车/(当前浏览
记录的商品)%
下单商
品数
下单/(当前浏览记录
的商品)%
支付
商品数
支付/(当前浏览
记录的商品)%
1 0 0 2 0.01 2 0.01
2 0 0 3 0.09 2 0.06
3 1 0.12 0 0 0 0
4 12 1.06 1 0.09 1 0.09
5 79 7.03 2 0.18 2 0.18
6 100 3.29 13 0.43 11 0.36
7 49 0.35 25 0.18 16 0.12
8 341 2.66 92 0.72 61 0.48
9 832 6.55 215 1.68 167 1.31
10 265 7.54 78 2.22 53 1.51
11 148 8.68 38 2.23 31 1.82
12 151 5.14 32 1.09 24 0.82
13 128 9.40 44 3.23 32 2.35
14 120 9.14 33 2.59 27 1.62
15 99 9.88 28 2.82 20 2.34
16 173 10.62 49 3.06 36 3.01
17 220 11.35 65 3.29 53 2.62
18 225 12.09 93 3.53 63 2.81
19 136 12.83 50 3.76 43 3.00
20 115 13.56 48 4.00 36 3.20
表7  用户浏览记录数-购买行为数及占比表
添加购物车 提交订单 成功支付
添加购物车 1 .304** .291**
提交订单 1 .931**
成功支付 1
表8  购买行为相关性分析表
添加购物车 提交订单 成功支付
查看商品详情 .396** .423** .411**
浏览商品尺码规格、细节图、实拍图等详情 .345** .342** .331**
浏览商品评价、晒单 .315** .36** .353**
查看商品大图 .19** .14** .132**
下拉浏览商品详情 .387** .382** .371**
查看店铺信息 .372** .398** .386**
查看店铺热卖 .352** .373** .361**
查看店铺商品列表 .079** .08** .078**
分享商品、店铺 .318** .348** .339**
查看购物车 .109** .071** .068**
表9  浏览行为与购买行为相关性分析表
步骤 -2对数似然 考克斯-斯奈尔R方 内戈尔科R方
7 2198.826* .455 .606
表10  模型摘要
实测 预测
支付 正确百分比
.0 1.0
步骤7 支付 .0 1 294 116 91.8
1.0 358 1 052 74.6
总体百分比 83.2
表11  训练集预测结果分类表
B 标准误差 瓦尔德 自由度 显著性 Exp(B)
查看商品详情 .285 .059 22.933 1 .000 1.329
浏览商品尺码规格、细节图、实拍图等详情 -.118 .043 7.730 1 .005 .888
浏览商品评价、晒单 .074 .026 7.855 1 .005 1.076
查看商品大图 .421 .145 8.398 1 .004 1.523
下拉浏览商品详情 .724 .100 52.800 1 .000 2.063
查看店铺热卖 .554 .119 21.575 1 .000 1.741
查看购物车 1.021 .277 13.559 1 .000 2.775
常量 -2.471 .105 554.732 1 .000 .085
表12  方程中的变量
预测值
是否购买 正确百分比
观测值 是否购买 268 109 71.09
973 17 642 94.77
总体百分比 82.93
表13  测试集预测结果分类表
预测值
是否购买 正确百分比
观测值 是否购买 283 94 75.07
1 215 17 400 93.47
总体百分比 84.27
表14  方法一预测结果分类表
预测值
是否购买 正确百分比
观测值 是否购买 278 99 73.74
1 117 17 498 94.00
总体百分比 83.87
表15  方法二预测结果分类表
图4  方法一决策树模型
图5  方法二决策树模型
[1] 中国互联网络信息中心. 第39次《中国互联网络发展状况统计报告》[R]. 2017.
(CNNIC. The Report of the 39th China Internet Development Statistics [R]. 2017.)
[2] 陆敏玲, 曹玉枝, 鲁耀斌. 基于移动商务特征视角的移动购物用户采纳行为研究[J]. 情报杂志, 2012, 31(9): 202-207.
(Lu Minling, Cao Yuzhi, Lu Yaobin.A Study on Consumers’ Adoption of Mobile Shopping Services from a Perspective of Features in the Mobile Environment[J].Journal of Intelligence, 2012, 31(9): 202-207.)
[3] QuestMobile. QuestMobile-移动互联网2017春季报告: 我们想聊聊10亿+用户之后的APP江湖 [R]. 2017.
(QuestMobile. Mobile Internet Spring 2017 Report: Let’s Talk About a Country of Apps with 1 Billion+ Users [R].2017.)
[4] 王知津, 韩正彪, 周鹏. 电子商务网站顾客信息搜寻行为形成机制研究[J]. 图书与情报, 2011(3): 12-16.
doi: 10.3969/j.issn.1003-6938.2011.03.004
(Wang Zhijin, Han Zhengbiao, Zhou Peng.The Formation Mechanism of the Customer Information Search Behavior in E-commerce Website[J]. Library & Information, 2011(3): 12-16.)
[5] 袁兴福, 张鹏翼, 王军. 电商用户“状态-行为”建模及其在商品信息搜索行为分析的应用[J]. 现代图书情报技术, 2015(6): 93-100.
(Yuan Xingfu, Zhang Pengyi, Wang Jun.“State-Behavior” Modeling and Its Application in Analyzing Product Information Seeking Behavior of E-commerce Websites Users[J]. New Technology of Library and Information Service, 2015(6): 93-100.)
[6] 袁兴福, 张鹏翼, 刘洪莲, 等. 基于点击流的电商用户会话建模[J]. 图书情报工作, 2015, 59(1): 119-126.
doi: 10.13266/j.issn.0252-3116.2015.01.016
(Yuan Xingfu, Zhang Pengyi, Liu Honglian, et al.Modeling E-commerce User Session Behaviors Based on Click-through Sequences[J]. Library and Information Service, 2015, 59(1): 119-126.)
[7] Farag N I, Smith M D, Krishnan M S.The Consumer Online Purchase Decision: A Model of Consideration Set Formation and Buyer Conversion Rate Across Market Leaders and Market Followers[C]//Proceedings of the International Conference on Information Systems. 2003: 283-295.
[8] 王军, 李鑫. 自我效能对网评信息查寻行为的影响研究[J]. 图书情报工作, 2014, 58(14): 110-114.
doi: 10.13266/j.issn.0252-3116.2014.14.016
(Wang Jun, Li Xin.Research on the Impact of Self-efficacy on Network Information Seeking Behavior[J]. Library and Information Service, 2014, 58(14): 110-114.)
[9] 范敏, 邓小昭. 网络环境下消费者信息查寻行为研究[J]. 现代情报, 2011, 31(12): 37-40.
(Fan Min, Deng Xiaozhao.Study of Online Consumer’s Information Seeking Behavior[J]. Modern Information, 2011, 31(12): 37-40.)
[10] 许应楠. 消费者在线购物决策中的商品参数浏览偏好分析——以数码相机为例[J]. 现代图书情报技术, 2012(12): 52-57.
(Xu Yingnan.Analysis of Commodity Parameters Browsing Preference in Consumer’s Online Shopping Decision-making——Taking Digital Camera for Example[J]. New Technology of Library and Information Service, 2012(12): 52-57.)
[11] 刘洪莲, 张鹏翼, 王军. 多会话网络购物商品信息搜寻行为研究[J]. 图书情报工作, 2015, 59(14): 117-125.
doi: 10.13266/j.issn.0252-3116.2015.14.017
(Liu Honglian, Zhang Pengyi, Wang Jun.Product Information Seeking Behavior of Multi-session Online Shopping Tasks[J]. Library and Information Service, 2015, 59(14): 117-125.)
[12] 刘洪莲, 张鹏翼, 王军. 多会话商品信息搜寻行为、情境及影响因素研究[J]. 现代图书情报技术, 2016(4): 1-7.
(Liu Honglian, Zhang Pengyi, Wang Jun.Multi-session Product Information Seeking Behaviors, Motivation, and Influencing Factors[J]. New Technology of Library and Information Service, 2016 (4): 1-7.)
[13] Ji J, Liu C, Sha Z, et al.Personalized Recommendation Based on a Multilevel Customer Model[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2005, 19(7): 895-916.
doi: 10.1142/S021800140500437X
[14] 纪征. 基于用户兴趣模型的电子商务网站推荐技术比较及启示[J]. 图书情报工作, 2010, 54(16): 138-140.
(Ji Zheng.Recommendation Technology Based on User’s Interest Model for the E-commerce Site[J].Library and Information Service, 2010, 54(16): 138-140.)
[15] Qiu J, Lin Z, Li Y.Predicting Customer Purchase Behavior in the E-commerce Context[J]. Electronic Commerce Research, 2015, 15(4): 427-452.
doi: 10.1007/s10660-015-9191-6
[16] Li Q, Gu M, Zhou K, et al.Multi-Classes Feature Engineering with Sliding Window for Purchase Prediction in Mobile Commerce[C]// Proceedings of the IEEE International Conference on Data Mining Workshop, 2016.
[17] Gupta R, Pathak C.A Machine Learning Framework for Predicting Purchase by Online Customers Based on Dynamic Pricing[J]. Procedia Computer Science, 2014, 36: 599-605.
doi: 10.1016/j.procs.2014.09.060
[18] 曾宪宇, 刘淇, 赵洪科, 等. 用户在线购买预测: 一种基于用户操作序列和选择模型的方法[J]. 计算机研究与发展, 2016, 53(8): 1673-1683.
(Zeng Xianyu, Liu Qi, Zhao Hongke, et al.Online Consumptions Prediction via Modeling User Behaviors and Choices[J].Journal of Computer Research and Development, 2016, 53(8): 1673-1683.)
[19] 吴国华, 潘德惠. 顾客购买行为影响因素分析及重购概率的预测[J]. 管理工程学报, 2005, 19(1): 104-107.
(Wu Guohua, Pan Dehui.Analyzing the Main Elements of Customer Purchase Behavior and Predicting the Probability of Customer Repurchase[J]. Journal of Industrial Engineering, 2005, 19(1): 104-107.)
[20] 张阔, 李桂华, 李燕飞. 我国城市消费者寿险购买行为的影响因素及预测[J]. 数理统计与管理, 2011, 30(2): 291-298.
(Zhang Kuo, Li Guihua, Li Yanfei.The Development of Forecasting Model on Consumers Life Insurance Purchasing by Discriminant Analysis and Logistic Regression[J]. Journal of Applied Statistics and Management, 2011, 30(2): 291-298.)
[21] 毛乾任, 王朝斌. 基于C4.5决策树的大学生笔记本电脑购买行为的数据挖掘[J]. 重庆理工大学学报, 2015, 29(2): 76-81.
(Mao Qianren, Wang Chaobin.Data Mining on College Students’ Laptop Purchase Behavior Based on Decision Tree C4.5[J].Journal of Chongqing University of Technology: Natural Science, 2015, 29(2): 76-81.)
[22] 冯秀荣, 冷静, 刘海. C5.0决策树算法在移动阅读用户流失中的应用[J]. 北京信息科技大学学报: 自然科学版, 2016, 31(1): 84-89.
doi: 10.16508/j.cnki.11-5866/n.2016.01.017
(Feng Xiurong, Leng Jing, Liu Hai.Application of C5.0 Decision Tree Algorithm to Loss of Mobile Reading Users[J]. Journal of Beijing Information Science & Technology University, 2016, 31(1): 84-89.)
[23] 朱彤, 刘奕群, 茹立云, 等. 基于用户行为的长查询用户满意度分析[J]. 模式识别与人工智能, 2012, 25(3): 469-474.
doi: 10.3969/j.issn.1003-6059.2012.03.016
(Zhu Tong, Liu Qiqun, Ru Liyun, et al.Long Query User Satisfaction Analysis Based on User Behaviors[J]. PR & AI, 2012, 25(3): 469-474.)
[24] 张晨阳, 余荣, 张浩川. 基于决策树的移动互联网用户付费意愿分析与预测[J]. 无线互联科技, 2017(15): 21-23.
(Zhang Chenyang, Yu Rong, Zhang Haochuan.Analysis and Prediction of Willingness to Pay for Mobile Networks Users Based on Decision Tree[J]. Wireless Internet Technology, 2017(15): 21-23.)
[25] 王济川, 郭志刚. Logistic回归模型: 方法与应用[M]. 北京: 高等教育出版社, 2001.
(Wang Jichuan, Guo Zhigang.Logistic Regression Model: Methods and Application [M]. Beijing: Higher Education Press, 2001.)
[26] 何晓群. 多元统计分析[M].第4版. 北京: 中国人民大学出版社, 2015.
(He Xiaoqun.Multivariate Statistical Analysis [M]. The 4th Edition. Beijing: China Renmin University Press, 2015.)
[27] 唐华松, 姚耀文. 数据挖掘中决策树算法的探讨[J]. 计算机应用研究, 2001, 18(8): 18-19, 22.
(Tang Huasong, Yao Yaowen.Research on Decision Tree in Data Mining[J]. Application Research of Computers, 2001, 18(8): 18-19, 22.)
[28] 杨杰明, 闫欣, 曲朝阳, 等. 基于数据密度分布的欠采样方法研究[J]. 计算机应用研究, 2016, 33(10): 2997-3000.
doi: 10.3969/j.issn.1001-3695.2016.10.029
(Yang Jieming, Yan Xin, Qu Zhaoyang, et al.Under-sampling Technique Based on Data Density Distribution[J]. Application Research of Computers, 2016, 33(10): 2997-3000.)
[29] 黄卫来, 潘晓波. 在线商品评价信息有用性模型研究——纳入应用背景因素的信息采纳扩展模型[J]. 图书情报工作, 2014, 58(S1): 141-151.
(Huang Weilai, Pan Xiaobo.The Usefulness Model of Online Product Reviews: The Extensive Information Adoption Model Bringing into the Application Environment[J]. Library and Information Service, 2014, 58(S1): 141-151.)
[30] 云小风. 消费者在线购物车放弃行为影响因素的实证研究[J]. 图书情报工作, 2011, 55(2): 139-142.
(Yun Xiaofeng.An Empirical Research on the Determinants of Consumers’ Online Shopping Cart Abandonment[J]. Library and Information Service, 2011, 55(2): 139-142.)
[1] 吴丹,程磊. 移动地图交互中的步行路线规划情境研究*[J]. 数据分析与知识发现, 2017, 1(5): 12-22.
[2] 吴丹,李翼,董晶. 时间限制对步行导航信息行为的影响研究*[J]. 数据分析与知识发现, 2017, 1(5): 2-11.
[3] 吴丹,袁方. 基于GPS定位的步行导航用户分心研究*[J]. 数据分析与知识发现, 2017, 1(5): 32-41.
[4] 张颖怡, 章成志, 池雪花, 李蕾. 科研用户博文关键词标注行为差异研究——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(10): 13-21.
[5] 顾立平. 非用户模型-信息系统功能方法论[J]. 现代图书情报技术, 2011, 27(1): 46-51.
[6] 曹梅. 网络图像检索的关键行为研究[J]. 现代图书情报技术, 2010, 26(12): 40-45.
[7] 马静,李衢 . 信息系统行为要素剖析及其监控机制设计*[J]. 现代图书情报技术, 2007, 2(1): 77-80.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn