Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (11): 62-74     https://doi.org/10.11925/infotech.2096-3467.2017.0694
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究*
原欣伟(), 杨少华, 王超超, 杜占河
西安理工大学经济与管理学院 西安 710054
Identifying Lead Players of User Innovation Communities Based on Feature Extraction and Random Forest Classification
Yuan Xinwei(), Yang Shaohua, Wang Chaochao, Du Zhanhe
School of Economics and Management, Xi’an University of Technology, Xi’an 710054, China
全文: PDF (3180 KB)   HTML ( 2
输出: BibTeX | EndNote (RIS)      
摘要 

目的】为了发挥用户创新社区及领先用户在企业开放式创新中的作用, 对用户创新社区情境下的领先用户识别方法进行研究。【方法】结合领先用户特征, 利用用户创新社区中的用户数据, 从用户内容信息和行为数据两方面抽取用户特征, 并在此基础上提出基于随机森林分类的领先用户识别方法。并以小米社区的MIUI论坛为例进行实例分析。【结果】实验结果表明, 本文提出的识别方法在领先用户和非领先用户之间具有较好的区分度。【局限】不同产品领域用户创新社区的用户生成内容和行为数据有一定差异, 本文仅以讨论小米手机操作系统的MIUI论坛为例, 涉及其他产品领域用户创新社区时, 用户特征抽取和相应的训练模型可能需要依具体情况适当调整。【结论】本文方法是一种适合用户创新社区情境的领先用户识别方法, 可以和传统方法有机结合, 以进一步提高此类社区领先用户识别的效率和效力。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
原欣伟
杨少华
王超超
杜占河
关键词 用户创新社区领先用户识别用户特征随机森林分类算法    
Abstract

[Objective] This paper aims to identify the lead players of user innovation communities to promote the open innovation for enterprises. [Methods] First, we extracted features of the users from related content and behavior data of the innovation community. Then, we proposed a method to idenfity the lead users based on Random Forest classification model. Finally, we examine our new method with real data from the MIUI forum of Xiaomi community. [Results] The proposed method could identify the lead and non-lead users. [Limitations] Only examined our method with the MIUI forum, therefore, adjustments were needed to use it for other user innovation communities. [Conclusions] The proposed method could identify lead users from various online communities more efficiently and effectively.

Key wordsUser Innovation Community    Lead User Identification    User Feature    Random Forest Classification
收稿日期: 2017-07-14      出版日期: 2017-11-27
ZTFLH:  C93 F27  
基金资助:*本文系教育部人文社会科学研究规划基金项目“基于语义网和社会网络的企业(群)研发知识网络提升研究”(项目编号: 13YJAZH123)的研究成果之一
引用本文:   
原欣伟, 杨少华, 王超超, 杜占河. 基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究*[J]. 数据分析与知识发现, 2017, 1(11): 62-74.
Yuan Xinwei,Yang Shaohua,Wang Chaochao,Du Zhanhe. Identifying Lead Players of User Innovation Communities Based on Feature Extraction and Random Forest Classification. Data Analysis and Knowledge Discovery, 2017, 1(11): 62-74.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0694      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I11/62
特征 主要来源
具有领先于普通用户的需求 Von Hippel E (1986)[7]
具有强烈的创新动机 Von Hippel E (1986)[7]
期望从需求解决方案中获得高收益 Morrison P D等(2004)[18]; Spann M等(2009)[19]; Oosterloo A(2010)[20]
对现有产品表现出强烈不满 Lüthje C等(2004)[8]; Conradie P D等(2016)[21]; Belz F M等(2010)[10]; Pajo S等(2013)[22]
作为意见领袖的潜质 Belz F M等(2010)[10]; Pajo S等(2013)[22]
参与性 Lüthje C等(2004)[8]; Belz F M等(2010)[10]; Pajo S等(2013)[22]
比普通用户更快速地采纳新产品 Pajo S等(2013)[22]
较强创新能力 Belz F M等(2010)[10]; 何国正等(2009)[23]
拥有丰富的产品知识 Lüthje C 等(2004) [8]; Belz F M 等(2010) [10]
拥有丰富的产品使用经验 Lüthje C等(2004)[8]; Conradie P D等(2016)[21]; Belz F M等(2010)[10]; Pajo S等(2013)[22]
  领先用户特征
  基于随机森林分类的领先用户识别过程
行为特征 具体指标 指标含义 体现的领先用户特征
参与 积分 用户通过签到、发表主题和评论、保持在线以及参与社区论坛活动等方式获得的积分 参与性、产品知识
和使用经验
主题数 用户发表主题的数量
评论数 用户对他人主题的评论数
在线时长 用户在社区中所花费的时间长短
社区影响 贡献值 社区对用户贡献的认可, 在一些社区通过贡献值这一指标体现出来 产品知识和使用经验、
意见领袖潜质、创新
能力
威望值 社区对用户发表主题质量的肯定, 在一些社区通过威望值这一指标体现出来
主题平均回复量 用户发表的主题所获得的平均回复数量,
即主题平均回复量=主题总回复数量/主题数量
主题平均点击量 用户发表的主题所获得的平均点击数量,
即主题平均点击量=主题总点击数量/主题数量
精华帖数量 当用户发表的主题得到社区认可的精华帖数量
关系建立 好友数 用户在社区中的好友数量 参与性、意见领袖潜质
空间访问量 用户在社区中的个人主页空间的被访问数量
  用户行为特征数据抽取
用户ID 主题核心内容 主题发表平台
137748*** 提供解决卡机问题的5种方法 PC
94494*** 提供谷歌套件的安装教程 PC
182392*** 汇总了小米手机存在的已知问题 PC
1579712*** 建议优化自动升级体验 小米手机4
310*** 提出通话录音对方声音偏低的
改进建议
PC
1594000*** 反馈手机软件安装问题 小米手机4c
  部分用户及主题示例
  基于网络志法的样本数据人工分类过程
词语 信息熵 词语 信息熵 词语 信息熵 词语 信息熵
安卓 0.316213 还原 0.223788 权限 0.734063 工具箱 0.262723
备份 0.611726 唤醒 0.658948 缺点 0.310863 工艺 0.201891
壁纸 0.610224 技能 0.324151 缺陷 0.264289 功耗 0.372700
避免 0.578136 技巧 0.345415 容量 0.494894 功率 0.201180
边框 0.451883 技术 0.593708 设定 0.410444 功能 0.793653
编程 0.273725 架构 0.241603 设计 0.609646 共享 0.509798
编译 0.259703 脚本 0.332176 深刻 0.257540 故障 0.273800
标准 0.684879 教程 0.598938 释放 0.190585 管理 0.789340
补丁 0.401210 解码 0.209270 授权 0.553083 规格 0.211333
参考 0.676205 解锁 0.302388 刷新 0.485019 耗电 0.613368
参照 0.219423 进程 0.599015 思考 0.229520 频段 0.424151
差异 0.187917 禁止 0.602119 提升 0.557852 频率 0.502831
沉浸 0.511611 精简 0.304325 突破 0.318078 品牌 0.239496
程度 0.491713 精密 0.218749 推荐 0.695444 品质 0.345167
程序 0.742381 精品 0.570579 挖掘 0.097196 平衡 0.187100
触摸屏 0.301239 均衡 0.357329 完美 0.713902 评测 0.487002
传感器 0.450762 开放 0.615575 维护 0.469622 评估 0.323698
创新 0.494803 开启 0.766367 系列 0.667252 屏蔽 0.734825
创造 0.337468 框架 0.483972 细节 0.567618 瓶颈 0.183485
搭载 0.370015 扩展 0.419518 细腻 0.251230 清理 0.724261
代码 0.637274 流畅 0.667485 限制 0.704581 运行 0.770446
颠覆 0.282982 流程 0.249353 协议 0.377887 增强 0.567740
对象 0.169484 路径 0.338769 虚拟 0.597106 制式 0.461678
二进制 0.186764 乱码 0.509190 渲染 0.325471 主板 0.462250
服务器 0.636913 美化 0.148695 研发 0.301277 专家 0.231291
改进 0.701178 命令 0.387072 研究 0.467130 字符 0.296423
改善 0.311125 模块 0.652269 验证 0.636157 最强 0.295451
根据 0.684804 内存 0.725427 移植 0.410075 最新 0.809079
根目录 0.318490 内核 0.460854 引领 0.261932
工程师 0.684590 配置 0.613033 优化 0.710139
  用户特征词提取及信息熵计算
  用户内容信息得分分布状况
  反映用户参与行为的特征数据分布状况
  反映用户社区影响的特征数据分布状况
  反映用户关系的特征数据分布状况
领先用户 非领先用户 预测准确率
领先用户 28 2 93.33%
非领先用户 3 27 90%
  随机森林混淆矩阵(训练集)
  模型输入变量重要性测度图
领先用户 非领先用户 准确率
领先用户 19 1 95%
非领先用户 1 19 95%
  随机森林混淆矩阵(20个非领先用户)
领先用户 非领先用户 准确率
领先用户 19 1 95%
非领先用户 2 38 95%
  随机森林混淆矩阵(40个非领先用户)
领先用户 非领先用户 准确率
领先用户 19 1 95%
非领先用户 3 77 96.25%
  随机森林混淆矩阵(80个非领先用户)
领先用户 非领先用户 准确率
领先用户 19 1 95%
非领先用户 7 153 95.63%
  随机森林混淆矩阵(160个非领先用户)
领先用户(20名) 非领先用户(20名) 非领先用户(40名) 非领先用户(80名) 非领先用户(160名)
BP神经网络模型 85.00% 70.00% 72.50% 78.75% 76.11%
C-SVM分类模型 85.00% 90.00% 87.50% 93.75% 94.44%
随机森林分类模型 95.00% 95.00% 95.00% 96.25% 95.63%
  三种模型的识别准确率
[1] 姚山季, 王永贵. 顾客参与新产品开发对企业技术创新绩效的影响机制——基于B-B情境下的实证研究[J]. 科学学与科学技术管理, 2011, 32(5): 34-41.
[1] (Yao Shanji, Wang Yonggui.Mechanism of Impact of Customer Participation in New Product Development on Technological Innovation Performance of Enterprises: An Empirical Research in B-B Context[J]. Science of Science and Management of S. & T., 2011, 32(5): 34-41.)
[2] Hau Y S, Kim Y G.Why Would Online Gamers Share Their Innovation-conducive Knowledge in the Online Game User Community? Integrating Individual Motivations and Social Capital Perspectives[J]. Computers in Human Behavior, 2011, 27(2): 956-970.
doi: 10.1016/j.chb.2010.11.022
[3] Sawhney M, Verona G, Prandelli E.Collaborating to Create: The Internet as a Platform for Customer Engagement in Product Innovation[J]. Journal of Interactive Marketing, 2005, 19(4): 4-17.
doi: 10.1002/dir.20046
[4] Dahlander L, Wallin M W.A Man on the Inside: Unlocking Communities as Complementary Assets[J]. Research Policy, 2006, 35(8): 1243-1259.
doi: 10.1016/j.respol.2006.09.011
[5] Mahr D, Lievens A.Virtual Lead User Communities: Drivers of Knowledge Creation for Innovation[J]. Research Policy, 2012, 41(1): 167-177.
doi: 10.1016/j.respol.2011.08.006
[6] Füller J, Mühlbacher H, Matzler K, et al.Consumer Empowerment Through Internet-based Co-creation[J]. Journal of Management Information Systems, 2009, 26(3): 71-102.
doi: 10.2753/MIS0742-1222260303
[7] Von Hippel E.Lead Users: A Source of Novel Product Concepts[J]. Management Science, 1986, 32(7): 791-805.
doi: 10.1287/mnsc.32.7.791
[8] Lüthje C, Herstatt C.The Lead User Method: An Outline of Empirical Findings and Issues for Future Research[J]. R&D Management, 2004, 34(5): 553-568.
doi: 10.1111/j.1467-9310.2004.00362.x
[9] Von Hippel E, Franke N, Prügl R.Pyramiding: Efficient Search for Rare Subjects[J]. Research Policy, 2009, 38(9): 1397-1406.
doi: 10.1016/j.respol.2009.07.005
[10] Belz F M, Baumbach W.Netnography as a Method of Lead User Identification[J]. Creativity and Innovation Management, 2010, 19(3): 304-313.
doi: 10.1111/j.1467-8691.2010.00571.x
[11] Brem A, Bilgram V.The Search for Innovative Partners in Co-creation: Identifying Lead Users in Social Media Through Netnography and Crowdsourcing[J]. Journal of Engineering and Technology Management, 2015, 37: 40-51.
doi: 10.1016/j.jengtecman.2015.08.004
[12] Pajo S, Verhaegen P A, Vandevenne D, et al.Fast Lead User Identification Framework[J]. Procedia Engineering, 2015, 131: 1140-1145.
doi: 10.1016/j.proeng.2015.12.434
[13] Pajo S, Vandevenne D, Duflou J R.Automated Feature Extraction from Social Media for Systematic Lead User Identification[J]. Technology Analysis & Strategic Management, 2017, 29(6): 642-654.
doi: 10.1080/09537325.2016.1220517
[14] Martínez-Torres M R. Application of Evolutionary Computation Techniques for the Identification of Innovators in Open Innovation Communities[J]. Expert Systems with Applications, 2013, 40(7): 2503-2510.
doi: 10.1016/j.eswa.2012.10.070
[15] 叶三龙. 基于聚类分析的网络社区领先用户发现研究[D]. 合肥: 合肥工业大学, 2013.
[15] (Ye Sanlong.Lead User Identification in Online Communities Based on Cluster Analysis[D]. Hefei: Hefei University of Technology, 2013.)
[16] 陈以增, 缪运文, 王斌达. 以小米为例基于Biclustering对领先用户的识别方法[C]// 中国系统工程学会学术年会论文集, 2014.
[16] (Chen Yizeng, Miao Yunwen, Wang Binda.A Biclustering-Based Lead User Identification Methodology Applied to Xiaomi[C]// Proceedings of Annual Conference of Systems Engineering Society of China, 2014.)
[17] 赵晓煜, 孙福权. 协同创新社区中领先用户的自动识别方法[J]. 武汉理工大学学报: 信息与管理工程版, 2014, 36(4): 537-540.
doi: 10.3963/j.issn.2095-3852.2014.04.022
[17] (Zhao Xiaoyu, Sun Fuquan.Method for Identifying Lead Users in Online Innovation Communities[J]. Journal of Wuhan University of Technology: Information & Management Engineering, 2014, 36(4): 537-540.)
doi: 10.3963/j.issn.2095-3852.2014.04.022
[18] Morrison P D, Roberts J H, Midgley D F.The Nature of Lead Users and Measurement of Leading Edge Status[J]. Research Policy, 2004, 33(2): 351-362.
doi: 10.1016/j.respol.2003.09.007
[19] Spann M, Ernst H, Skiera B, et al.Identification of Lead Users for Consumer Products via Virtual Stock Markets[J]. Journal of Product Innovation Management, 2009, 26(3): 322-335.
doi: 10.1111/j.1540-5885.2009.00661.x
[20] Oosterloo A.Organizations as Professional Communities in the Post-modern Era[J]. Bulletin of the Transilvania University of Braşov, 2010, 3(52): 99-106.
[21] Conradie P D, Herregodts A L, De Marez L, et al.Product Ideation by Persons with Disabilities: An Analysis of Lead User Characteristics[C]//Proceedings of the 7th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion. ACM, 2016: 69-76.
[22] Pajo S, Verhaegen P A, Vandevenne D, et al.Analysis of Automatic Online Lead User Identification [A]//Smart Product Engineering[M]. Springer Berlin Heidelberg, 2013: 505-514.
[23] 何国正, 陈荣秋. 消费品行业领先用户识别方法研究[J]. 统计与决策, 2009(4): 15-17.
[23] (He Guozheng, Chen Rongqiu.Lead User Identification in Consumer Goods Industry[J]. Statistics and Decision, 2009(4): 15-17.)
[24] Bilgram V, Brem A, Voigt K I.User-centric Innovations in New Product Development—Systematic Identification of Lead Users Harnessing Interactive and Collaborative Online- tools[J]. International Journal of Innovation Management, 2008, 12(3): 419-458.
doi: 10.1142/S1363919608002096
[25] 杨波, 刘伟. 基于应用扩展和网络论坛的领先用户识别方法研究[J]. 管理学报, 2011, 8(9): 1353-1358.
doi: 10.3969/j.issn.1672-884X.2011.09.013
[25] (Yang Bo, Liu Wei.Research on Lead User Identification on the Basis of Application Extending and Netnews[J]. Chinese Journal of Management, 2011, 8(9): 1353-1358.)
doi: 10.3969/j.issn.1672-884X.2011.09.013
[26] Prpić J, Shukla P P, Kietzmann J H, et al.How to Work a Crowd: Developing Crowd Capital Through Crowdsourcing[J]. Business Horizons, 2015, 58(1): 77-85.
doi: 10.1016/j.bushor.2014.09.005
[27] Karmeshu J. Entropy Measures, Maximum Entropy Principle and Emerging Applications[M]. Springer Science & Business Media, 2003.
[28] Breiman L.Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
doi: 10.1023/A:1010933404324
[29] Breiman L.Statistical Modeling: The Two Cultures[J]. Statistical Science, 2001, 16(3): 199-231.
doi: 10.1214/ss/1009213726
No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn