Numpy 回收利用在 Pandas Dataframe 中的应用

在本文中，我们将介绍Numpy 回收利用在 Pandas Dataframe 中的应用。Numpy 是Python中一个重要的科学计算库，而Pandas是Python中一个流行的数据分析库。Pandas内嵌的操作支持NumPy数据的导入，因此，本文着重讨论如何在Pandas Dataframe中使用Numpy 回收利用工具。

阅读更多：Numpy 教程

什么是 Pandas Dataframe？

Pandas Dataframe是一种二维数据结构，可以像表格一样存储数据。每一列称为一个系列（Series），而一个Dataframe是一个多个系列的组合。一个简单的例子：

import pandas as pd

data_list = {'name': ['John', 'Mike', 'Sarah', 'Tom'], 
             'age': [25, 30, 36, 42], 
             'city': ['NY', 'LA', 'Seattle', 'Chicago']}

df = pd.DataFrame(data_list)
print(df)

输出结果：

   name  age      city
0  John    25       NY
1  Mike    30       LA
2  Sarah   36  Seattle
3  Tom    42  Chicago

这里我们创建了一个字典，其中包括了四个键值对，分别表示4个人的名字、年龄和城市。通过 pd.DataFrame(data_list)，我们将字典转换成Dataframe。可以看到，结果是按行，将字典中的值转换成的表格的形式。此外，每个列的数据类型也可以通过Dataframe中的列索引访问。

NumPy 回收利用工具

Numpy 回收利用工具是在NumPy中提供的一组函数，它们用于实现是数据的数组和矩阵的操作、数组的算术运算、数组的抽象类型，以及各种逻辑和位函数。

在Pandas中，很多操作都可以通过调用Numpy中的函数来实现。一些常见的应用包括：

对象展开和堆叠

Pandas Dataframe中的堆叠是一个常见的操作，可以通过使用NumPy中的concatenate或stack方法来实现。考虑下面的例子：

import numpy as np

array1 = np.array([[1,2], [3,4]])
array2 = np.array([[5,6], [7,8]])

stacked = np.stack((array1, array2))
print(stacked)

输出结果：

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

堆叠后的结果是一个三维的数组，通过第一维度的索引，我们可以访问每一个2*2形式的数组。

对象的数组变形

在Pandas中，Andfocusingfra是一种二维数据结构，而NumPy还支持多种不同维度的数组结构。因此，在某些情况下，需要改变数组维度以进行计算或应用特定函数。

比如，假设我们有一个video.csv文件，其原始结构如下：

Time,Video 1,Video 2,Video 3
0,10,5,7
1,11,6,8
2,12,9,9
3,13,7,11

可以通过以下代码来转换它的结构：

import pandas as pd

df = pd.read_csv('video.csv')
print(df)

melted_df = pd.melt(df, id_vars=['Time'], value_vars=['Video 1', 'Video 2', 'Video 3'], var_name='Video', value_name='Value')
print(melted_df)

pivoted_df = melted_df.pivot(index='Time', columns='Video', values='Value')
print(pivoted_df)

输出结果：

   Time  Video 1  Video 2  Video 3
0     0       10        
1     1       11         6         8
2     2       12         9         9
3     3       13         7        11

   Time    Video  Value
0     0  Video 1     10
1     1  Video 1     11
2     2  Video 1     12
3     3  Video 1     13
4     0  Video 2      5
5     1  Video 2      6
6     2  Video 2      9
7     3  Video 2      7
8     0  Video 3      7
9     1  Video 3      8
10    2  Video 3      9
11    3  Video 3     11

     Video  Video 1  Video 2  Video 3
Time                                 
0     10.0      5.0      7.0
1     11.0      6.0      8.0
2     12.0      9.0      9.0
3     13.0      7.0     11.0

上面的代码中，melt函数将 Video 1、Video 2 和 Video 3 从列 (columns)中展开至行 (rows)，新生成了两列 (columns): 一个是用来保留 ‘Time’ 值的列、另一个是保留 ‘Value’ (因为这是展开的结果)。\

最后，得到的Dataframe再通过 pivot 函数转换成我们需要的数据格式，即使用 Time 作为新的行索引，Video 列的值作为新的列索引， Value 值填充表格中的数据。