Pandas 如何使用stack()将宽数据帧转换为整洁数据帧

由于其丰富的库和框架，Python已经成为最受欢迎的数据分析和处理编程语言之一。在这些库中，Pandas以其强大和有用的数据处理工具而脱颖而出。使用Pandas，您可以轻松加载、转换和分析各种格式的数据。

在本教程中，我们将探讨如何使用Pandas的stack()函数将宽数据帧转换为整洁数据帧。将宽数据帧转换为整洁数据帧在许多数据分析工作流程中是一个重要的步骤，因为它可以更容易地进行数据操作、绘图和建模。在文章的下一部分，我们将深入探讨Pandas stack()函数的细节，并演示如何使用它进行此转换过程。

如何使用Pandas的stack()将宽数据帧转换为整洁数据帧

在深入研究转换过程之前，让我们花一点时间了解宽数据帧和整洁数据帧的概念。

宽数据帧的结构方式是每一行代表一个实体或观察，例如一个人或一个产品。宽格式通常包含多列，存储与每个实体相关的不同属性或变量。

相反，整洁数据帧遵循一种特定的结构，使得分析和处理数据更容易。在一个整洁的数据帧中，每一行代表一个唯一的观察或测量。而列则包含不同的变量或属性。

现在我们对宽数据帧和整洁数据帧有了基本的了解，让我们深入探讨Pandas的stack()函数，将宽数据帧转换为整洁数据帧。

探索Pandas的stack()函数

Pandas中的stack()函数专门用于对数据帧进行重新构造或重塑。它接受一个宽数据帧作为输入，并通过将列堆叠成行来将其转换为整洁数据帧。这个操作通常被称为“堆叠”，因为它垂直堆叠列值，从而得到一个更狭窄和更长的数据帧。

现在，让我们通过一个示例场景来演示如何使用Pandas的stack()函数将宽数据帧转换为整洁数据帧。

考虑以下包含学生在不同科目中成绩的宽数据帧：

示例

import pandas as pd

# Create a sample wide dataframe
data = {
    'Name': ['Student1', 'Student2', 'Student3'],
    'Math Score': [85, 70, 95],
    'Science Score': [90, 80, 92]
}

wide_df = pd.DataFrame(data)
print("Wide DataFrame:")
print(wide_df)

输出

上述代码的宽数据框将如下所示：

Name          Math Score   Science Score
0  Student1          85             90
1  Student2          70             80
2  Student3          95             92

将这个宽格式的数据框转换为整洁格式，我们将按照以下步骤进行：

导入所需的库并加载数据框：

我们首先导入Pandas库，它为我们提供了stack()函数来进行转换。我们还使用Pandas的DataFrame构造函数加载宽格式的数据框。

示例

import pandas as pd

# Create a sample wide dataframe
data = {
    'Name': ['Student1', 'Student2', 'Student3'],
    'Math Score': [85, 70, 95],
    'Science Score': [90, 80, 92]
}

wide_df = pd.DataFrame(data)
print("Wide DataFrame:")
print(wide_df)

查看宽数据框并确定要堆叠的列：

仔细查看宽数据框并确定需要堆叠的列。在我们的示例中，我们想要将列”Math Score”和”Science Score”堆叠起来，将它们转换为单独的行。

# Inspect the wide dataframe
print("Wide DataFrame:")
print(wide_df)

宽度的数据框将类似于以下样式：

Name        Math Score  Science Score
0  Student1          85             90
1  Student2          70             80
2  Student3          95             92

将stack()函数应用于重新塑造的数据框：

现在，让我们使用stack()函数将宽数据框转换为整洁格式。我们在wide_df上应用stack()函数，并将结果分配给一个新变量tidy_df。

# Apply the stack() function
tidy_df = wide_df.stack().reset_index()
tidy_df.columns = ['ID', 'Subject', 'Score']

讨论生成的整洁数据框及其结构：

使用stack()函数后，我们获得一个新的数据框tidy_df，它以整洁的格式表示原始的宽数据框。整洁数据框有三列：’ID’（学生ID）、’Subject’（科目）和’Score’（分数）。每一行在整洁数据框中对应着特定学生在特定科目中的分数。

# Display the resulting tidy dataframe
print("\nTidy DataFrame:")
print(tidy_df)

下面是上述数据框对应的整洁数据框的大致样式：

ID           Subject     Score
0   0      Math Score     85
1   0   Science Score      90
2   1      Math Score     70
3   1   Science Score      80
4   2      Math Score     95
5   2   Science Score      92

在生成的整洁数据框中，我们可以看到’ID’列表示宽数据框的原始行索引，’Subject’列包含主题名称，’Score’列保存相应的分数。现在每一行都表示一个唯一的观察点，使得分析和操作数据更加容易。

因此，我们成功地使用Pandas的stack函数将宽数据框转换为整洁的数据框。

结论

在本文中，我们学习了如何使用Pandas的stack()函数将宽数据框转换为整洁的数据框。首先，我们探讨了宽数据框和整洁数据框之间的区别，后者更容易分析和处理。然后我们通过一个示例场景，使用stack()函数将包含学生在不同学科中的分数的宽数据框进行转换。我们还提供了一个逐步指南，说明如何应用stack()函数，并展示了生成的整洁数据框的结构和列。总体而言，Pandas的stack()函数是一个有价值的工具，可以根据我们的数据分析需求对数据框进行重塑和转换。