趣味编程:Python实现的随机森林

2013-6-12 09:39| 发布者: joejoe0332| 查看: 9613| 评论: 0|原作者: 开源中国社区|来自: 开源中国社区

摘要: 　　随机森林是一个高度灵活的机器学习方法，拥有广泛的应用前景，从市场营销到医疗保健保险。既可以用来做市场营销模拟的建模，统计客户来源，保留和流失。也可用来预测疾病的风险和病患者的易感性。　　随机森 ...

　　为什么你让我用它？

　　简单

　　随机森林就是学习方法中的Leatherman呀。你几乎可以把任何东西扔进去，它基本上都是可供使用的。在估计推断映射方面特别好用，以致都不需要像SVM那样做很多调试（也就是说对于那些最后期限很紧的家伙们真是太棒了）。

　　[译者注：Leatherman就是那家生产多功能折叠刀的公司，类似瑞士军刀]

　　一个映射的例子

　　随机森林在没有精心准备的数据映射的情况下也能学习。以方程f(x) = log(x)为例。

　　制造一些假数据，并且加上一点儿噪音。

import numpy as np
x = np.random.uniform(1, 100, 1000)
y = np.log(x) + np.random.normal(0, .3, 1000)

full gist here

　　如果我们建立了一个基本的线性模型通过使用 x 来预测y，我们需要作一条直线，算是平分 log (x) 函数。而如果我们使用一个随机的森林，它不会更好的逼近 log (x) 曲线并能够使得它更像实际函数。

　　你也许会说随机森林有点扰乱了 log(x) 函数。不管怎样，我都认为这做了一个很好的说明如何随机森林并未绑定于线性约束。

　　使用

　　变量选择

　　随机森林最好的用例之一是特征选择。尝试很多决策树变种的一个副产品就是你可以检测每棵树中哪个变量最合适/最糟糕。

　　当一棵树使用一个变量，而另一棵不使用这个变量，你就可以从是否包含这个变量来比较价值的减少或增加。优秀的随机森林实现将为你做这些事情，所以你需要做的仅仅是知道去看那个方法或参数。

　　在下述的例子中，我们尝试去指出对于将酒分为红酒或者白酒哪个变量是最重要的。

　　分类

　　随机森林也很善于分类。它可以被用于为多个可能目标类别做预测，它也可以被校正输出概率。你需要注意的一件事情是过拟合。随机森林容易产生过拟合，特别是在数据集相对小的时候。当你的模型对于测试集合做出“太好”的预测的时候就应该怀疑一下了。

　　产生过拟合的一个原因是在模型中只使用相关特征。然而只使用相关特征并不总是事先准备好的，使用特征选择（就像前面提到的）可以使其更简单。