Kaggle、Python机器学习教程(一):模型的工作原理以及使用方法

@高效码农  July 6, 2019

简介

讲师

丹贝克尔
数据科学家
Dan为财富100强中的6家公司提供数据科学咨询服务,并为Keras提供深度学习方面的帮助。他拥有计量经济学博士学位。

我们首先概述机器学习模型如何工作以及如何使用它们。如果你以前做过统计建模或机器学习,这可能会很基本。别担心,我们很快就会建立强大的模型。

这个微课程将让您在完成以下场景时构建模型:

你的堂兄已经花了数百万美元推测房地产。由于您对数据科学的兴趣,他愿意与您成为业务合作伙伴。他会提供资金,你会提供预测各种房屋价值的模型。

你问你的堂兄他过去如何预测房地产价值。他说这只是直觉。但更多的质疑表明,他已经确定了他过去看过的房屋的价格模式,他利用这些模式对他正在考虑的新房进行预测。

机器学习的工作方式相同。我们将从一个名为决策树的模型开始。有更高级的模型可以提供更准确的预测。但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。

为简单起见,我们将从最简单的决策树开始。

它将房屋分为两类。所考虑的任何房屋的预测价格是同一类别房屋的历史平均价格。

我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。从数据捕获模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。

模型如何适合的细节(例如,如何分割数据)非常复杂,我们将在以后保存它。在模型适合后,您可以将其应用于新数据以预测其他房屋的价格。

改进决策树

通过拟合房地产培训数据,更有可能产生以下两个决策树中的哪一个?

左侧的决策树(决策树1)可能更有意义,因为它捕捉到了这样的现实:拥有更多卧室的房屋往往以比卧室更少的房屋更高的价格出售。这种模式的最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,批量,位置等。

您可以使用具有更多“拆分”的树来捕获更多因素。这些被称为“更深”的树木。决策树也考虑每个房屋的总面积大小如下:深度2树

您可以通过在决策树中进行追踪来预测任何房屋的价格,并始终选择与该房屋特征相对应的路径。房子的预测价格位于树的底部。我们进行预测的底部点称为叶子。

叶子上的分割和值将由数据确定,因此您需要查看将要使用的数据。



评论已关闭