Kaggle、Python数据可视化seaborn(一):你好,seaborn
欢迎使用数据可视化:
在这个动手实践的微课程中,您将学习如何使用seaborn(一种功能强大但易于使用的数据可视化工具)将您的数据可视化提升到新的水平。 要使用seaborn,您还将学习如何使用Python(一种流行的编程语言)编写代码。 那说,
- 微课程针对那些没有任何编程经验的人,
- 每个图表使用简短的代码,使得seaborn比许多其他数据可视化工具(例如Excel)更快更容易使用。
所以,如果你从未编写过一行代码,并且想要了解最低限度,以便开始制作更快,更具吸引力的情节,那么你就是在正确的地方! 要查看您将要制作的一些图表,请查看下面的图表。
编码环境
现在花点时间在这个页面上快速滚动。 您会注意到有很多不同类型的信息,包括:
- 文字(就像你现在正在阅读的文字一样!),
- 代码(始终包含在称为代码单元格的灰色框内),以及
- 代码输出(或运行代码的打印结果,始终显示在相应代码的正下方)。
我们将这些页面称为Jupyter笔记本(或者通常只是笔记本),我们将在整个微课程中使用它们。 笔记本的另一个例子可以在下面的图像中找到。
在您正在阅读的笔记本中,我们已经为您运行了所有代码。 很快,您将使用可以编写和运行自己的代码的笔记本!
设置笔记本
您需要在每个笔记本的顶部运行几行代码来设置编码环境。 现在理解这些代码行并不重要,因此我们暂不讨论细节。 (请注意,它将作为输出返回:Setup Complete。)
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
# Set up code checking
from learntools.core import binder
binder.bind(globals())
from learntools.data_viz_to_coder.ex1 import *
print("Setup Complete")
本地无法运行?
加载数据
在这个笔记本中,我们将使用六个国家的历史FIFA排名数据集:阿根廷(ARG),巴西(BRA),西班牙(ESP),法国(FRA),德国(GER)和意大利(ITA)。 数据集存储为CSV文件(逗号分隔值文件的缩写)。在Excel中打开CSV文件会显示每个日期的行,以及每个国家/地区的列。
要将数据加载到笔记本中,我们将使用两个不同的步骤,在下面的代码单元中实现,如下所示:
- 首先指定可以访问数据集的位置(或文件路径),然后
- 使用文件路径将数据集的内容加载到笔记本中。
# Path of the file to read
fifa_filepath = "../input/fifa.csv"
# Read the file into a variable fifa_data
fifa_data = pd.read_csv(fifa_filepath, index_col="Date", parse_dates=True)
请注意,上面的代码单元有四条不同的行。
评论
其中两行前面有一个井号(#),并包含显示为褪色和斜体的文本。
运行代码时,计算机完全忽略了这两行,并且它们只出现在此处,以便任何读取代码的人都可以快速理解它。 我们将这两行称为注释,并且最好包含它们以确保您的代码易于解释。
可执行代码
另外两行是可执行代码,或由计算机运行的代码(在这种情况下,用于查找和加载数据集)。
第一行将fifa_filepath的值设置为可以访问数据集的位置。 在这种情况下,我们为您提供了文件路径(在引号中)。 请注意,此行可执行代码正上方的注释提供了它的功能的快速描述!
第二行设置fifa_data的值以包含数据集中的所有信息。 这是通过pd.read_csv完成的。 紧接着是三个不同的文本(上图中带下划线),括在括号中并用逗号分隔。 这些用于在数据集加载到笔记本中时自定义行为:
fifa_filepath
- 始终需要首先提供数据集的文件路径。index_col ="Date"
- 当我们加载数据集时,我们希望第一列中的每个条目表示不同的行。 为此,我们将index_col的值设置为第一列的名称("Date",在Excel中打开时在文件的单元格A1中找到)。parse_dates = True
- 这告诉笔记本将每个行标签理解为日期(而不是具有不同含义的数字或其他文本)。
当您有机会在动手练习中加载自己的数据集时,这些细节将很快变得更有意义。
现在,重要的是要记住运行两行代码的最终结果是我们现在可以使用fifa_data从笔记本中访问数据集。
顺便说一句,你可能已经注意到这些代码行没有任何输出(而你在笔记本中早先运行的代码行返回Setup Complete作为输出)。 这是预期的行为 - 并非所有代码都会返回输出,这段代码就是一个很好的例子!
检查数据
现在,我们将快速查看fifa_data中的数据集,以确保正确加载。
我们通过编写一行代码来打印数据集的前五行,如下所示:
从包含数据集的变量开始(在本例中为fifa_data),然后
用.head()跟着它。
您可以在下面的代码行中看到这一点。
# Print the first 5 rows of the data
fifa_data.head()
输出:
现在检查前五行是否与上面的数据集图像一致(从我们看到它在Excel中看起来的样子)。
绘制数据
在这个微课程中,您将了解许多不同的情节类型。 在许多情况下,您只需要一行代码来制作图表!
要了解您将学习的内容,请查看下面生成折线图的代码。
# Set the width and height of the figure
plt.figure(figsize=(16,6))
# Line chart showing how FIFA rankings evolved over time
sns.lineplot(data=fifa_data)
输出:
<matplotlib.axes._subplots.AxesSubplot at 0x7fba11c00240>
这段代码还没有意义,您将在即将到来的教程中了解更多相关内容。 现在,继续第一次练习,您将有机会亲自体验编码环境!
开始你的练习:https://www.kaggle.com/scratchpad/kernel9cc17fde63/edit
当前页面是本站的「Google AMP」版。查看和发表评论请点击:完整版 »