Kaggle、Python数据可视化seaborn(一)：你好，seaborn

欢迎使用数据可视化：
在这个动手实践的微课程中，您将学习如何使用seaborn（一种功能强大但易于使用的数据可视化工具）将您的数据可视化提升到新的水平。要使用seaborn，您还将学习如何使用Python（一种流行的编程语言）编写代码。那说，

微课程针对那些没有任何编程经验的人，
每个图表使用简短的代码，使得seaborn比许多其他数据可视化工具（例如Excel）更快更容易使用。

所以，如果你从未编写过一行代码，并且想要了解最低限度，以便开始制作更快，更具吸引力的情节，那么你就是在正确的地方！要查看您将要制作的一些图表，请查看下面的图表。
2019-07-11T09:27:27.png

编码环境

现在花点时间在这个页面上快速滚动。您会注意到有很多不同类型的信息，包括：

文字（就像你现在正在阅读的文字一样！），
代码（始终包含在称为代码单元格的灰色框内），以及
代码输出（或运行代码的打印结果，始终显示在相应代码的正下方）。

我们将这些页面称为Jupyter笔记本（或者通常只是笔记本），我们将在整个微课程中使用它们。笔记本的另一个例子可以在下面的图像中找到。
2019-07-11T09:28:30.png

在您正在阅读的笔记本中，我们已经为您运行了所有代码。很快，您将使用可以编写和运行自己的代码的笔记本！

设置笔记本

您需要在每个笔记本的顶部运行几行代码来设置编码环境。现在理解这些代码行并不重要，因此我们暂不讨论细节。（请注意，它将作为输出返回：Setup Complete。）

import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.data_viz_to_coder.ex1 import *
print("Setup Complete")

本地无法运行？

加载数据

在这个笔记本中，我们将使用六个国家的历史FIFA排名数据集：阿根廷（ARG），巴西（BRA），西班牙（ESP），法国（FRA），德国（GER）和意大利（ITA）。数据集存储为CSV文件（逗号分隔值文件的缩写）。在Excel中打开CSV文件会显示每个日期的行，以及每个国家/地区的列。
2019-07-11T09:39:09.png

要将数据加载到笔记本中，我们将使用两个不同的步骤，在下面的代码单元中实现，如下所示：

首先指定可以访问数据集的位置（或文件路径），然后
使用文件路径将数据集的内容加载到笔记本中。

# Path of the file to read
fifa_filepath = "../input/fifa.csv"

# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)

2019-07-11T09:40:56.png

请注意，上面的代码单元有四条不同的行。

评论
其中两行前面有一个井号（＃），并包含显示为褪色和斜体的文本。

运行代码时，计算机完全忽略了这两行，并且它们只出现在此处，以便任何读取代码的人都可以快速理解它。我们将这两行称为注释，并且最好包含它们以确保您的代码易于解释。

可执行代码
另外两行是可执行代码，或由计算机运行的代码（在这种情况下，用于查找和加载数据集）。

第一行将fifa_filepath的值设置为可以访问数据集的位置。在这种情况下，我们为您提供了文件路径（在引号中）。请注意，此行可执行代码正上方的注释提供了它的功能的快速描述！

第二行设置fifa_data的值以包含数据集中的所有信息。这是通过pd.read_csv完成的。紧接着是三个不同的文本（上图中带下划线），括在括号中并用逗号分隔。这些用于在数据集加载到笔记本中时自定义行为：

fifa_filepath– 始终需要首先提供数据集的文件路径。
index_col ="Date" – 当我们加载数据集时，我们希望第一列中的每个条目表示不同的行。为此，我们将index_col的值设置为第一列的名称（”Date”，在Excel中打开时在文件的单元格A1中找到）。
parse_dates = True – 这告诉笔记本将每个行标签理解为日期（而不是具有不同含义的数字或其他文本）。

当您有机会在动手练习中加载自己的数据集时，这些细节将很快变得更有意义。

现在，重要的是要记住运行两行代码的最终结果是我们现在可以使用fifa_data从笔记本中访问数据集。

顺便说一句，你可能已经注意到这些代码行没有任何输出（而你在笔记本中早先运行的代码行返回Setup Complete作为输出）。这是预期的行为 – 并非所有代码都会返回输出，这段代码就是一个很好的例子！

检查数据

现在，我们将快速查看fifa_data中的数据集，以确保正确加载。

我们通过编写一行代码来打印数据集的前五行，如下所示：

从包含数据集的变量开始（在本例中为fifa_data），然后
用.head()跟着它。
您可以在下面的代码行中看到这一点。

# Print the first 5 rows of the data
fifa_data.head()

输出：
2019-07-11T09:47:05.png

现在检查前五行是否与上面的数据集图像一致（从我们看到它在Excel中看起来的样子）。

绘制数据

在这个微课程中，您将了解许多不同的情节类型。在许多情况下，您只需要一行代码来制作图表！

要了解您将学习的内容，请查看下面生成折线图的代码。

# Set the width and height of the figure
plt.figure(figsize=(16,6))

# Line chart showing how FIFA rankings evolved over time 
sns.lineplot(data=fifa_data)

输出：

<matplotlib.axes._subplots.AxesSubplot at 0x7fba11c00240>

2019-07-11T09:48:50.png

这段代码还没有意义，您将在即将到来的教程中了解更多相关内容。现在，继续第一次练习，您将有机会亲自体验编码环境！

开始你的练习：https://www.kaggle.com/scratchpad/kernel9cc17fde63/edit