Kaggle、Python机器学习教程（二）：数据探索

使用Pandas熟悉您的数据

使用Pandas熟悉您的数据，机器学习项目的第一步都是熟悉数据。你将使用Pandas库。 Pandas是科学家用于探索和操纵数据的主要工具。大多数人在他们的代码中将pandas缩写为pd。我们使用命令执行此操作

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame是一个二维的表结构。这类似于Excel中的工作表或SQL数据库中的表。

对于您希望使用此类数据进行的大多数事情，Pandas都有强大的方法。

例如，我们将查看澳大利亚墨尔本的房价数据。在动手练习中，您将相同的流程应用于新的数据集，该数据集在爱荷华州有房价。

示例（墨尔本）数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。

我们使用以下命令加载和浏览数据：

#!/usr/bin/python3
# -*- coding: utf-8 -*-


import pandas as pd

# 将文件路径保存到变量以便于访问
melbourne_file_path = 'melb_data.csv'
# 读取数据并将数据存储在标题为melbourne_data的DataFrame中
melbourne_data = pd.read_csv(melbourne_file_path) 
# 打印墨尔本数据中的数据摘要
print(melbourne_data.describe())

解释数据描述

结果显示原始数据集中每一列有8个数字。第一个数字count显示有多少行具有未丢失的值。

缺失值的产生有很多原因。例如，在调查一间只有一间卧室的房子时，不会收集第二间卧室的大小。我们将回到丢失数据的主题。

第二个值是平均值，也就是平均值。在此情况下，std是标准偏差，它度量值在数值上的分布情况。要解释最小值、25%、50%、75%和最大值，请设想将每一列从最低值排序为最高值。第一个(最小的)值是最小值。如果你在列表中查找四分之一，你会发现一个数字大于25%的值，小于75%的值。这就是25%的值(发音为“25%”)。第50和75百分位数的定义类似，最大值是最大的数字。

开始您的第一个编码练习

当前页面是本站的「Baidu MIP」版。发表评论请点击：完整版 »