Python – 用内连接合并Pandas DataFrame
在数据分析领域,Pandas库是一个非常有用的工具。其中DataFrame是最常用的数据结构之一。DataFrame是一个二维表格,每个列可以是不同的数据类型。 在数据分析中,我们通常需要将多个表格按照某个共同的列进行合并。这就需要使用Pandas中的连接操作。本文将介绍如何使用内连接合并Pandas DataFrame。
什么是内连接?
在数据库中,内连接是一种常见的连接操作。它能将两个表格按照某个共同的列进行匹配,将匹配成功的行合并成一个新的表格。在Pandas中,我们也可以使用内连接实现这个功能。
与数据库不同的是,Pandas中的内连接操作非常简单。我们只需要调用merge()
函数,并设置how='inner'
参数即可。下面的示例代码展示了如何使用内连接合并两个DataFrame。
import pandas as pd
# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
'C': ['C0', 'C1', 'C2', 'C4'],
'D': ['D0', 'D1', 'D2', 'D4']})
# 内连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='inner')
print(result)
输出结果为:
key A B C D
0 K0 A0 B0 C0 D0
1 K1 A1 B1 C1 D1
2 K2 A2 B2 C2 D2
连接的类型
在Pandas中,连接操作有多种类型。除了内连接(inner join)之外,还有左连接(left join)、右连接(right join)和外连接(outer join)。
- 左连接:以左边DataFrame为基础,将右边DataFrame中能够和左边DataFrame匹配的行合并,不能匹配的数据部分用Null填充;
- 右连接:以右边DataFrame为基础,将左边DataFrame中能够和右边DataFrame匹配的行合并,不能匹配的数据部分用Null填充;
- 外连接:将左连接和右连接合并得到的结果,即保留了全部的数据。没有匹配的部分用Null填充。
以上三种连接方式都可以使用merge()
函数实现。下面分别对三种连接方式进行示例。
左连接示例
import pandas as pd
# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
'C': ['C0', 'C1', 'C2', 'C4'],
'D': ['D0', 'D1', 'D2', 'D4']})
# 左连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='left')
print(result)
输出结果为:
key A B C D
0 K0 A0 B0 C0 D0
1 K1 A1 B1 C1 D1
2 K2 A2 B2 C2 D2
3 K3 A3 B3 NaN NaN
右连接示例
import pandas as pd
# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
'C': ['C0', 'C1', 'C2', 'C4'],
'D': ['D0', 'D1', 'D2', 'D4']})
# 右连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='right')
print(result)
输出结果为:
key A B C D
0 K0 A0 B0 C0 D0
1 K1 A1 B1 C1 D1
2 K2 A2 B2 C2 D2
3 K4 NaN NaN C4 D4
外连接示例
import pandas as pd
# 创建DataFrame
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K4'],
'C': ['C0', 'C1', 'C2', 'C4'],
'D': ['D0', 'D1', 'D2', 'D4']})
# 外连接两个DataFrame
result = pd.merge(df1, df2, on='key', how='outer')
print(result)
输出结果为:
key A B C D
0 K0 A0 B0 C0 D0
1 K1 A1 B1 C1 D1
2 K2 A2 B2 C2 D2
3 K3 A3 B3 NaN NaN
4 K4 NaN NaN C4 D4
结论
内连接是Pandas中连接操作中最常用的一种。它能够将两个DataFrame按照某个共同的列匹配并合并。Pandas中还有左连接、右连接和外连接等其他连接方式。关于连接操作还有很多细节,需要结合实际情况进行操作。