基于用户特征抽取和随机森林分类的用户创新社区领先用户识别研究*
原欣伟, 杨少华, 王超超, 杜占河

Identifying Lead Players of User Innovation Communities Based on Feature Extraction and Random Forest Classification
Yuan Xinwei,Yang Shaohua,Wang Chaochao,Du Zhanhe
表4 用户特征词提取及信息熵计算
词语 信息熵 词语 信息熵 词语 信息熵 词语 信息熵
安卓 0.316213 还原 0.223788 权限 0.734063 工具箱 0.262723
备份 0.611726 唤醒 0.658948 缺点 0.310863 工艺 0.201891
壁纸 0.610224 技能 0.324151 缺陷 0.264289 功耗 0.372700
避免 0.578136 技巧 0.345415 容量 0.494894 功率 0.201180
边框 0.451883 技术 0.593708 设定 0.410444 功能 0.793653
编程 0.273725 架构 0.241603 设计 0.609646 共享 0.509798
编译 0.259703 脚本 0.332176 深刻 0.257540 故障 0.273800
标准 0.684879 教程 0.598938 释放 0.190585 管理 0.789340
补丁 0.401210 解码 0.209270 授权 0.553083 规格 0.211333
参考 0.676205 解锁 0.302388 刷新 0.485019 耗电 0.613368
参照 0.219423 进程 0.599015 思考 0.229520 频段 0.424151
差异 0.187917 禁止 0.602119 提升 0.557852 频率 0.502831
沉浸 0.511611 精简 0.304325 突破 0.318078 品牌 0.239496
程度 0.491713 精密 0.218749 推荐 0.695444 品质 0.345167
程序 0.742381 精品 0.570579 挖掘 0.097196 平衡 0.187100
触摸屏 0.301239 均衡 0.357329 完美 0.713902 评测 0.487002
传感器 0.450762 开放 0.615575 维护 0.469622 评估 0.323698
创新 0.494803 开启 0.766367 系列 0.667252 屏蔽 0.734825
创造 0.337468 框架 0.483972 细节 0.567618 瓶颈 0.183485
搭载 0.370015 扩展 0.419518 细腻 0.251230 清理 0.724261
代码 0.637274 流畅 0.667485 限制 0.704581 运行 0.770446
颠覆 0.282982 流程 0.249353 协议 0.377887 增强 0.567740
对象 0.169484 路径 0.338769 虚拟 0.597106 制式 0.461678
二进制 0.186764 乱码 0.509190 渲染 0.325471 主板 0.462250
服务器 0.636913 美化 0.148695 研发 0.301277 专家 0.231291
改进 0.701178 命令 0.387072 研究 0.467130 字符 0.296423
改善 0.311125 模块 0.652269 验证 0.636157 最强 0.295451
根据 0.684804 内存 0.725427 移植 0.410075 最新 0.809079
根目录 0.318490 内核 0.460854 引领 0.261932
工程师 0.684590 配置 0.613033 优化 0.710139