Python连接两个dataframe|极客笔记

Python连接两个dataframe

在数据处理和分析中，有时候会需要将两个数据集进行连接，以便进行更复杂的分析和处理。在Python中，pandas库提供了丰富的函数来实现数据集的连接操作。本文将详细介绍如何使用pandas库来连接两个dataframe，并给出示例代码以及相应的运行结果。

1. 连接方式

在pandas中，有几种不同的连接方式，包括内连接、外连接、左连接和右连接。这些连接方式的具体含义如下：

内连接（inner join）：只保留两个dataframe中共同的部分。
外连接（outer join）：保留两个dataframe的所有行，并用NaN填充缺失值。
左连接（left join）：以左边的dataframe为基准，保留左右两个dataframe中共同的部分。
右连接（right join）：以右边的dataframe为基准，保留左右两个dataframe中共同的部分。

根据具体的需求和数据结构，选择适合的连接方式是很重要的。

2. 示例数据

为了演示连接操作，我们先创建两个示例的dataframe。假设第一个dataframe包含学生的姓名和年龄信息，第二个dataframe包含学生的姓名和成绩信息。

import pandas as pd

# 创建第一个dataframe
data1 = {'姓名': ['张三', '李四', '王五', '赵六'],
         '年龄': [20, 21, 22, 23]}
df1 = pd.DataFrame(data1)

# 创建第二个dataframe
data2 = {'姓名': ['张三', '李四', '王五', '马七'],
         '成绩': [90, 85, 88, 92]}
df2 = pd.DataFrame(data2)

3. 内连接

内连接是连接两个dataframe的最常用方式，它只保留两个dataframe中共同的部分。使用pd.merge()函数来进行内连接操作。

inner_join = pd.merge(df1, df2, on='姓名', how='inner')
print(inner_join)

运行结果如下：

   姓名  年龄  成绩
0  张三  20  90
1  李四  21  85
2  王五  22  88

从结果可以看出，内连接只保留了两个dataframe中共同的学生（张三、李四、王五）的信息。

4. 外连接

外连接是保留两个dataframe的所有行，并用NaN填充缺失值。使用pd.merge()函数来进行外连接操作。

outer_join = pd.merge(df1, df2, on='姓名', how='outer')
print(outer_join)

运行结果如下：

   姓名    年龄    成绩
0  张三  20.0  90.0
1  李四  21.0  85.0
2  王五  22.0  88.0
3  赵六  23.0   NaN
4  马七   NaN  92.0

可以看到，外连接保留了两个dataframe的所有行（包括缺失值）。

5. 左连接

左连接是以左边的dataframe为基准，保留左右两个dataframe中共同的部分。使用pd.merge()函数来进行左连接操作。

left_join = pd.merge(df1, df2, on='姓名', how='left')
print(left_join)

运行结果如下：

   姓名  年龄    成绩
0  张三  20  90.0
1  李四  21  85.0
2  王五  22  88.0
3  赵六  23   NaN

左连接保留了左边dataframe（df1）中的所有行，并填充了右边dataframe（df2）中的缺失值。

6. 右连接

右连接是以右边的dataframe为基准，保留左右两个dataframe中共同的部分。使用pd.merge()函数来进行右连接操作。

right_join = pd.merge(df1, df2, on='姓名', how='right')
print(right_join)

运行结果如下：

   姓名    年龄  成绩
0  张三  20.0  90
1  李四  21.0  85
2  王五  22.0  88
3  马七   NaN  92

右连接保留了右边dataframe（df2）中的所有行，并填充了左边dataframe（df1）中的缺失值。

结论

通过以上示例，我们了解了如何使用pandas库来连接两个dataframe。在实际应用中，根据具体的需求和数据结构选择合适的连接方式是非常重要的。连接操作能够帮助我们更好地理解和分析数据，提高数据处理的效率和准确性。

Python连接两个dataframe