pandas stack|极客笔记

pandas stack

在数据处理和分析领域，pandas 是一个非常强大的 Python 库，提供了丰富的数据结构和数据分析工具。其中的 stack 函数也是数据处理中常用的功能之一。

什么是 stack

在 pandas 中，stack 是指将数据的列排成一列的操作，常用于多层索引的数据结构中。通过 stack，可以将数据从宽格式转换为长格式，方便后续的分析和处理。

stack 的用法

在 pandas 中，可以通过 stack() 函数来实现数据的堆栈操作。具体用法如下：

import pandas as pd

# 创建一个多层索引的 DataFrame
data = {
    'A': ['A1', 'A2', 'A3'],
    'B': ['B1', 'B2', 'B3'],
    'C': ['C1', 'C2', 'C3']
}
index = pd.MultiIndex.from_tuples([('X', 'Y'), ('X', 'Z'), ('Y', 'Z')], names=['first', 'second'])
df = pd.DataFrame(data, index=index)

# 查看原始 DataFrame
print("原始 DataFrame：")
print(df)

# 对 DataFrame 进行 stack 操作
stacked_df = df.stack()

# 查看堆叠后的 DataFrame
print("\n堆叠后的 DataFrame：")
print(stacked_df)

运行以上代码，可以得到如下输出：

原始 DataFrame：
                 A   B   C
first second
X     Y      A1  B1  C1
      Z      A2  B2  C2
Y     Z      A3  B3  C3

堆叠后的 DataFrame：
first  second
X      Y        A    A1
               B    B1
               C    C1
       Z        A    A2
               B    B2
               C    C2
Y      Z        A    A3
               B    B3
               C    C3
dtype: object

可以看到，原始的 DataFrame 是一个多层索引的数据结构，经过 stack() 函数操作后，数据变成了堆叠在一起的长格式。

stack 的参数

stack() 函数还有一些参数可以调整堆叠的行为，例如 level 参数用于指定堆叠的层级，默认是堆叠最内层的列。还有 dropna 参数用于控制是否丢弃缺失值。下面是一个使用参数的示例：

# 使用参数控制堆叠操作
stacked_df2 = df.stack(level=1, dropna=False)

# 查看堆叠后的 DataFrame
print("\n堆叠后的 DataFrame（使用参数）：")
print(stacked_df2)

运行以上代码后，可以得到如下输出：

堆叠后的 DataFrame（使用参数）：
first  second
X      Y        A    A1
               B    B1
               C    C1
       Z        A    A2
               B    B2
               C    C2
Y      Z        A    A3
               B    B3
               C    C3
dtype: object

可以看到，通过参数的调整，可以灵活控制对 DataFrame 的堆叠操作。