Python – 用内连接合并Pandas DataFrame

Python – 用内连接合并Pandas DataFrame

在数据分析领域,Pandas库是一个非常有用的工具。其中DataFrame是最常用的数据结构之一。DataFrame是一个二维表格,每个列可以是不同的数据类型。 在数据分析中,我们通常需要将多个表格按照某个共同的列进行合并。这就需要使用Pandas中的连接操作。本文将介绍如何使用内连接合并Pandas DataFrame。

什么是内连接?

在数据库中,内连接是一种常见的连接操作。它能将两个表格按照某个共同的列进行匹配,将匹配成功的行合并成一个新的表格。在Pandas中,我们也可以使用内连接实现这个功能。

与数据库不同的是,Pandas中的内连接操作非常简单。我们只需要调用merge()函数,并设置how='inner'参数即可。下面的示例代码展示了如何使用内连接合并两个DataFrame。

import pandas as pd 

# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
                      'C': ['C0', 'C1', 'C2', 'C4'],
                      'D': ['D0', 'D1', 'D2', 'D4']})

# 内连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='inner')
print(result)

输出结果为:

  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2

连接的类型

在Pandas中,连接操作有多种类型。除了内连接(inner join)之外,还有左连接(left join)、右连接(right join)和外连接(outer join)。

  • 左连接:以左边DataFrame为基础,将右边DataFrame中能够和左边DataFrame匹配的行合并,不能匹配的数据部分用Null填充;
  • 右连接:以右边DataFrame为基础,将左边DataFrame中能够和右边DataFrame匹配的行合并,不能匹配的数据部分用Null填充;
  • 外连接:将左连接和右连接合并得到的结果,即保留了全部的数据。没有匹配的部分用Null填充。

以上三种连接方式都可以使用merge()函数实现。下面分别对三种连接方式进行示例。

左连接示例

import pandas as pd 

# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
                      'C': ['C0', 'C1', 'C2', 'C4'],
                      'D': ['D0', 'D1', 'D2', 'D4']})

# 左连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='left')
print(result)

输出结果为:

  key   A   B    C    D
0  K0  A0  B0   C0   D0
1  K1  A1  B1   C1   D1
2  K2  A2  B2   C2   D2
3  K3  A3  B3  NaN  NaN

右连接示例

import pandas as pd 

# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
                      'C': ['C0', 'C1', 'C2', 'C4'],
                      'D': ['D0', 'D1', 'D2', 'D4']})

# 右连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='right')
print(result)

输出结果为:

  key    A    B   C   D
0  K0   A0   B0  C0  D0
1  K1   A1   B1  C1  D1
2  K2   A2   B2  C2  D2
3  K4  NaN  NaN  C4  D4

外连接示例

import pandas as pd 

# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
                      'C': ['C0', 'C1', 'C2', 'C4'],
                      'D': ['D0', 'D1', 'D2', 'D4']})

# 外连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='outer')
print(result)

输出结果为:

  key    A    B    C    D
0  K0   A0   B0   C0   D0
1  K1   A1   B1   C1   D1
2  K2   A2   B2   C2   D2
3  K3   A3   B3  NaN  NaN
4  K4  NaN  NaN   C4   D4

结论

内连接是Pandas中连接操作中最常用的一种。它能够将两个DataFrame按照某个共同的列匹配并合并。Pandas中还有左连接、右连接和外连接等其他连接方式。关于连接操作还有很多细节,需要结合实际情况进行操作。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程