数据分析与知识发现  2022, Vol. 6 Issue (2/3): 80-92
1北京中医药大学管理学院 北京 100029
2中国人民大学信息资源管理学院 北京 100872
3北京大学信息管理系 北京 100871
Predicting Churners of Online Health Communities Based on the User Persona
Wang Ruojia1,Yan Chengxi2,Guo Fengying1,Wang Jimin3()
1School of Management, Beijing University of Chinese Medicine, Beijing 100029, China
2School of Information Resource Management, Renmin University of China, Beijing 100872, China
3Department of Information Management, Peking University, Beijing 100871, China
全文: PDF (1542 KB)   HTML ( 33
【目的】 对在线健康社区用户进行精准画像并准确预测其在社区中的参与情况,有助于社区管理者早期识别流失用户,并做出个性化挽留措施。【方法】 构建多维度用户画像标签体系,采用统计分析、社会网络分析、自然语言处理技术、LDA主题聚类实现指标计算与可视化;将用户画像标签数据作为用户流失预测的模型输入,构建了基于滑动窗口的用户流失实时预测模型。【结果】 以华夏中医论坛的真实数据进行实证研究,为9 918个用户生成了多维度画像标签,构建并比较多种机器学习算法对用户流失的预测效果,结果显示Gradient Boosting算法效果最佳,F1值达到88.77%。【局限】 未在更多在线健康社区中应用,用户数据量较少。【结论】 本研究提出了一种依据用户在线交互行为特征实现多维度用户画像标签计算的方法,并验证了用户画像在用户流失预测中的应用可行性。

关键词 在线健康社区用户画像用户流失预测机器学习    

[Objective] This paper tries to predict user behaviors in online health community based on user persona technology, aiming to identify and keep the potential churners. [Methods] We constructed a multi-dimensional label system for user persona with the help of statistical analysis, social network analysis, natural language processing and LDA topic clustering. Then, we used the decision tree and ensemble learning models to predict the potential churners. [Results] We examined our new model with the Huaxia Traditional Chinese Medicine Forum and its F1 value reached 88.77%. [Limitations] More research is needed to examine our algorithm with other online health communities. [Conclusions] User persona technology could help us predict potential user churns.

Key wordsOnline Health Communities    User Persona    Churner Prediction    Machine Learning
收稿日期: 2021-09-21      出版日期: 2022-03-01
ZTFLH:  G350  
通讯作者: 王继民,ORCID:0000-0002-3573-7788     E-mail:
王若佳, 严承希, 郭凤英, 王继民. 基于用户画像的在线健康社区用户流失预测研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 80-92.
Wang Ruojia, Yan Chengxi, Guo Fengying, Wang Jimin. Predicting Churners of Online Health Communities Based on the User Persona. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 80-92.
构成要素 研究学者 具体指标
发文情况 Huh等[21],张海涛等[22] 发文频率、发帖数量、回帖数量、评论数量、原创帖分享、转发帖分享、发帖与评论中的提问等
文本内容 翟姗姗等[23],吴江等[24],盛姝等[14] 病情主题、疾病主题、医疗领域知识、社会支持类型等
专业权威 王凌霄等[25],王凯等[26],董伟等[27] 获得点赞数量、关注该用户的人数、回答被他人收藏的次数、回答被采纳的次数、精华帖数、认证级别、经验值、头衔等级等
社交交互 谷斌等[28],陈烨等[29] 入度中心性、出度中心性、中间中心性等
Table 1  在线社区用户画像的构成要素
Fig.1  技术路线图
Fig.2  用户画像标签维度与计算方法
Fig.3  用户流失预测的步骤与方法
Fig.4  基于滑动窗口的用户流失判断
用户ID 用户名称 注册时间 帖子数 获得点赞数 声望
2 甘草 2008/5/5 701 3 0
32471 二戒老中医 2010/4/22 1 223 231 63
153282 风的季节 2020/12/10 4 0 1
Table 2  用户基本信息的数据示例
帖子ID 帖子题目 发帖人 发帖时间 回复量 点击量 最新回帖时间
1914 华夏中医论坛患者咨询问诊单(求医者必看) 甘草 2008/7/19 5 8K 2020/12/10
434882 内科病咨询;胆虚少睡,胆实多睡。何方能实胆呢? 陶良义 2021/1/23 3 44 2021/1/23
415094 儿科病咨询;再次求助:小儿遗尿!!! 我是一个早产儿 2016/5/2 139 19K 2021/1/22
Table 3  论坛发帖信息的数据示例
帖子ID 用户ID 用户名称 回帖时间 回帖内容
434904 153838 bleachpiece 2021/01/26, 07:59 去年被一个医生治坏了,吃很多以六味丸为基础加减的方子,还有几个月五子衍宗丸。……但本人又是一派阳虚之象,四肢凉,白痰多等等,不能只用寒凉药。……我被治坏之前吃温热药一点问题都没的。
434904 145132 小学生11 2021/01/26, 09:51 这是邪火没有清理干净,当然不能吃温热药或者食物拉,当用寒凉派理论,把这邪火排出来就正常。所以用药当清邪火,补阳虚
434904 11474 金钱草 2021/01/26, 10:08 bleachpiece说: 去年前年被一个医生治坏了,点击展开... 比较奇特的个例。六味只是滋养药,五子温阳也不是厉害,怎么导致后来一用温药就痒呢,更何况身体一派阳虚之状?想来,莫非是运化不良而致?留个关注,学习专家们怎么分析。
Table 4  论坛回帖信息的数据示例
Fig.5  用户类别可视化
序号 关键词 频数 序号 关键词 频数 序号 关键词 频数 序号 关键词 频数
1 针灸 12 6 病痛 4 11 熏蒸 3 16 生姜 2
2 医生 8 7 关元 3 12 内服 3 17 辩证 2
3 见效 7 8 消炎 3 13 尺泽 2 18 电针 2
4 穴位 6 9 针灸师 3 14 手三里 2 19 水针 2
5 经络 4 10 针刺 3 15 浮小麦 2 20 艾灸 2
Table 5  用户ID144512的Top20高频关键词
Fig.6  ID126769的用户画像
Fig.7  LDA最佳主题数选取
类型 算法 精确率 召回率 F1
决策树 CART 0.809 3 0.807 6 0.807 3
C4.5 0.809 1 0.807 6 0.807 3
平均 0.809 2 0.807 6 0.807 3
集成学习 Bagging算法 RandomForest 0.807 4 0.807 3 0.807 2
ExtraTrees 0.882 5 0.882 5 0.882 5
平均 0.845 0 0.844 9 0.844 9
Boosting算法 AdaBoost 0.840 2 0.839 7 0.839 6
Gradient Boosting 0.890 3 0.887 9 0.887 7
平均 0.865 3 0.863 8 0.863 7
Table 6  模型预测效果比较
Fig.8  不同分类算法在具体类别上的预测结果
