Pandas 简介
Python是世界上最流行的编程语言之一。由于Python的语法非常易学和易写,与其他编程语言相比,可以用更少的代码行完成大量任务。Python的许多内置库帮助我们在机器学习、数据科学、数据可视化等各个领域创建应用程序和模型。
有一个名为Pandas的库将被详细讨论。请继续阅读以了解更多有关该库的信息。
Pandas
你们中的许多人可能听说过数据科学和数据分析,对吧?这个库可以帮助我们轻松高效地处理数据。这是一个开源库,提供了各种数据结构和方法,用于操作数值数据和时间序列。
简而言之,Pandas帮助我们处理混乱的数据集,使其更易读和有关。
开始使用Pandas
首先,重要的是要知道它是否已安装在Python文件夹中。如果没有安装,可以使用pip命令进行安装。在终端中,使用cd命令定位到文件夹后,输入“pip install pandas”。
安装完成后,导入这个库是必要的。为了导入模块,在Python代码空间中输入以下内容:
import pandas as pd
在这里,“pd”用于在以后的代码中使用该模块时,我们可以简单地使用pd.来调用Pandas提供的功能。这不是强制性的,但在我们想要快速输入并得到相同结果时很有帮助!
我们知道Python中存在各种数据结构,如列表、元组和字典。而对于Pandas模块,我们还可以获得两个附加的数据结构,以使我们在处理和组织数据时更加便利。 Series和DataFrame 是该库提供的两种数据结构。让我们详细讨论各种数据结构:
Series
它是一个可以容纳各种数据类型(如整数、浮点数、字符串等)的一维数组。索引方式类似于普通列表。显示任何系列时,它就像Excel表格中的一列。
我们可以从现有文件创建一个Series。无论是CSV文件、SQL数据库、Excel文件还是来自Python程序的列表、元组等。
示例
以下是一个Python演示代码:
import pandas as pd
import numpy as np
ser = pd.Series()
arr = np.array([1,2,3,4,5])
ser = pd.Series(arr)
print(ser)
在这个源代码中,我们将一个数字数组转换成Series数据类型。
输出
以下代码的输出如下:
0 1
1 2
2 3
3 4
4 5
dtype: int64
正如之前提到的,索引与Python中的标准列表类似,从0开始。’dtype’表示Series中包含的数据类型。
DataFrame
这是数据的二维表格表示形式。行和列被很好地排列,就像在Excel电子表格中的数据一样。在DataFrame中,有实际的数据、行和列。
要创建一个DataFrame,可以使用预先存在的文件,如CSV文件或Excel文件,以及SQL数据库。
在Python CodeSpace中可以使用预先存在的数据来创建DataFrame!下面的源代码就说明了这一点:
示例
import pandas as pd
int_list = [1,2,3,4,5]
data_fr = pd.DataFrame(int_list)
print(data_fr)
在第一行中,我们导入了非常重要的Pandas库。在这里,我们有一个预先存在的列表,我们刚刚将其转换为DataFrame数据类型。以下代码的输出为:
输出
0
0 1
1 2
2 3
3 4
4 5
如我们所观察到的那样,元素的索引与Series数据类型和列表类似。下面是DataFrame的另一个示例:
示例
import pandas as pd
stats = {“Messi”:[400,500,600], “Ronaldo”:[87,350,761]}
chart = pd.DataFrame(stats)
print(chart)
在这里,我们已经使用了一个预先存在的字典数据类型。输出将是:
输出
Messi Ronaldo
0 400 87
1 500 350
2 600 761
我们看到的数据比以前的字典更加组织得很好。这些数据类型在组织数据方面做得非常出色,因此使得我们很容易地研究数据。