Python数据科学手册-机器学习: 决策树与随机森林

无参数算法随机森林

随机森林是一种集成方法，集成多个比较简单的评估器形成累计效果。

导入标准程序库

随机森林的诱因：决策树

随机森林是建立在决策树基础上的集成学习器

建一颗决策树

二叉决策树

在一颗合理的决策书中。每个问题基本上都可将种类的可能性减半。

决策树的难点在于如何设计每一步的问题。

使用DecisionTreeClassifier评估器

辅助函数，分类器结果可视化

检查决策树分类的结果

在深度为5的时候，在黄色与蓝色区域中间有一个浅紫色区域，这显然不是根据数据本身的分布情况生成的正确分类结果，

而更像是一个特殊的数据样本或数据噪音形成的干扰结果。也就是数据出现了过拟合

通过组合多个过拟合评估器来降低过拟合成都的想法其实是一种集成学习方法，称为装袋算法。

每个评估器都对数据过拟合，通过求均值可以获得更好的分类结果。

随机决策树的集成算法就是随机森林

使用BaggingClassifier元评估器来实现这种装袋分类器

每个评估器拟合样本80%的随机数，其实如果我们用随机方法确定数据的分割方式，决策树拟合的随机性会更有型。这样可以让所有数据在每次训练时都被拟合，但拟合的结果却仍然是随机的。

使用RandomForestClassifier评估器，会自动进行随机化决策。

随机森林可以用作回归，处理连续变量，不是离散变量。

评估器是 RandomForestRegressor .

原始数据：快慢震荡组合

使用随机森林回归器，可以获得下面的最佳拟合曲线

真实模型是平滑曲线。随机森林模型是锯齿线，

用随机森林快速对数字进行分类

查看分类报告

混淆矩阵