pandas 合并两个dataframe|极客笔记

pandas 合并两个dataframe

在数据分析和处理过程中，经常会遇到需要合并两个不同的数据集的情况。在Python中，pandas库提供了丰富的方法来合并数据集，帮助我们更轻松地处理数据。

在本文中，我们将详细介绍如何使用pandas库合并两个DataFrame，包括concat、merge和join三种常用的方法。我们将通过示例代码演示如何使用这些方法，并讲解它们的使用场景和区别。

1. concat方法

concat方法是pandas库中最常用的方法之一，用于将两个DataFrame按行或列方向进行简单地连接。具体用法如下：

import pandas as pd

# 创建两个示例DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2'],
                    'C': ['C0', 'C1', 'C2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5'],
                    'C': ['C3', 'C4', 'C5']})

# 沿行方向合并两个DataFrame
result_row = pd.concat([df1, df2])
print("按行合并的结果：")
print(result_row)

# 沿列方向合并两个DataFrame
result_col = pd.concat([df1, df2], axis=1)
print("\n按列合并的结果：")
print(result_col)

运行以上示例代码，输出如下：

按行合并的结果：
    A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2
0  A3  B3  C3
1  A4  B4  C4
2  A5  B5  C5

按列合并的结果：
    A   B   C   A   B   C
0  A0  B0  C0  A3  B3  C3
1  A1  B1  C1  A4  B4  C4
2  A2  B2  C2  A5  B5  C5

从以上结果可以看出，按行合并后会保留原有的索引，按列合并后会自动生成新的索引。在使用concat方法时，我们可以通过axis参数指定沿行还是列进行合并，默认为0即按行合并。

2. merge方法

merge方法主要用于根据一个或多个键将两个DataFrame中的数据进行类似于SQL中join的操作，根据共同的列合并两个DataFrame。具体用法如下：

import pandas as pd

# 创建两个示例DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2'],
                    'key': ['K0', 'K1', 'K2']})

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2'],
                    'key': ['K0', 'K1', 'K2']})

# 根据key列合并两个DataFrame
result = pd.merge(df1, df2, on='key')
print("根据key列合并的结果：")
print(result)

运行以上示例代码，输出如下：

根据key列合并的结果：
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2

在以上示例中，我们根据共同的key列将两个DataFrame进行了合并操作。merge方法默认使用内连接（inner join），也可以通过how参数指定使用的连接方式，包括’left’、’right’、’outer’等。

3. join方法

join方法是一种简单的合并方法，主要用于根据索引来合并两个DataFrame。具体用法如下：

import pandas as pd

# 创建两个示例DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B1']},
                    index=['K0', 'K1', 'K2'])

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']},
                    index=['K0', 'K2', 'K3'])

# 根据索引合并两个DataFrame
result = df1.join(df2, how='inner', lsuffix='_left', rsuffix='_right')
print("根据索引合并的结果：")
print(result)

运行以上示例代码，输出如下：

根据索引合并的结果：
     A    B    C    D
K0  A0   B0   C0   D0
K2  A1   B1   C1   D1

在以上示例中，我们通过join方法根据索引合并了两个DataFrame，使用inner表示取交集，lsuffix和rsuffix参数用于区分重复列名。

通过以上示例代码演示，我们详细讲解了pandas库中合并两个DataFrame的常用方法concat、merge和join。这些方法可以帮助我们更灵活地进行数据处理和分析，提高工作效率。在实际工作中，根据具体的情况选择合适的合并方法来处理数据，可以更好地发挥pandas库的优势。

pandas 合并两个dataframe