Pandas 将DataFrame拆分成多个DataFrame

在本文中，我们将介绍Pandas中如何将一个DataFrame拆分成多个DataFrame。这对于大型数据分析任务尤其有用，可以让用户以更小的分块方式对数据进行处理，以避免内存问题。

1. 按照列拆分

在Pandas中，用户可以通过选择DataFrame中所需的列来拆分一个DataFrame。以下是一个示例代码：

import pandas as pd

# 创建一个DataFrame对象
df = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    'age': [20, 25, 30, 35, 40, 45],
    'gender': ['Male', 'Male', 'Male', 'Male', 'Female', 'Male']
})

# 按照gender列拆分
dfs = dict(tuple(df.groupby('gender')))

以上代码中，我们使用groupby()方法通过gender列来分割数据，并将所有分割数据存放在dfs字典中。每个子数据由gender列的唯一值（'Male'和'Female'）组成的。

2. 按照行拆分

同样，用户也可以按照行拆分一个DataFrame。以下是一个示例代码：

import pandas as pd

# 创建一个DataFrame对象
df = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
    'age': [20, 25, 30, 35, 40, 45],
    'gender': ['Male', 'Male', 'Male', 'Male', 'Female', 'Male']
})

# 将数据拆分成两半
dfs = [
    df.iloc[:3, :],
    df.iloc[3:, :]
]

在此示例代码中，我们使用iloc方法对DataFrame对象进行拆分。我们将要拆分成的子数据行数决定为总行数的一半，并将每个子数据的拆分结果存储在一个list对象中。

3. 按照列与行拆分

用户也可以同时使用行和列进行DataFrame的拆分操作。以下是一个示例：

import pandas as pd

df = pd.read_csv('data.csv')

# 按照年份和性别列拆分
dfs = dict(tuple(df.groupby(['Year', 'Gender'])))

以上代码中，我们首先使用read_csv()函数从一个CSV文件中获得一个DataFrame对象。接着，我们按照Year和Gender两个列来分割数据，并将结果存储在一个字典对象中。

4. 自定义拆分规则

用户也可以使用自定义的规则来拆分DataFrame。以下是一个示例代码：

import pandas as pd

# 创建一个DataFrame对象
df = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Charlie', 'David', 'Eva', 'Frank']
})

# 通过首字母来拆分数据
dfs = dict(tuple(df.groupby(lambda x: df.loc[x, 'name'][0])))

在此示例代码种，我们自定义了一个规则来实现DataFrame的拆分，即根据名称的首字母来进行拆分。我们使用lambda表达式来指定拆分规则，并将结果存储在dfs字典中。