统计学和机器学习是两个联系紧密的领域。事实上, 两者的界限有时非常模糊。有一些明显属于统计学领域的方法也可用于机器学习项目, 并且极具价值。
(1) 问题架构。统计方法在问题的架构阶段有助于探索数据, 包括: 探索性的数据分析; 数据挖掘。
(2) 数据理解。用于理解数据的统计学模型的两类主流分支: 汇总统计; 数据可视化。
(3) 数据清洗。统计方法应用于数据清洗: 异常点检测; 数据填补。
(4) 数据选择。应用在数据选择的两种统计学方法: 数据采样; 特征选择。
(5) 数据准备。数据准备也会用到统计模型, 例如: 缩放; 编码; 变换。
(6) 模型评估。对模型的能力的评估主要是对未经过训练的数据进行预测。
(7) 模型配置。两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较: 统计假设检验; 估计统计。
(8) 模型选择。使用两类统计方法解释不同模型的估计技能, 并用于模型选择: 统计假设检验; 估计统计。
(9) 模型表示。估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。
(10) 模型预测。作为预测的一部分, 量化预测的置信度非常重要。可以使用估计统计领域的方法量化这种不确定性, 例如置信区间和预测区间。
(编译自: https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/、https://www.leiphone.com/news/201807/fsFBLZYfCIKqTMnm.html)
(本刊讯)
|