python 按照字段merge|极客笔记

python 按照字段merge

在数据处理的过程中，我们经常需要将多个数据集合并在一起，通常使用merge函数来实现这一目的。在Python中，pandas库提供了相对简单易用的merge方法，可以根据指定的字段将两个数据集按照指定的方式连接起来。

merge函数的基本用法

merge函数的基本用法为：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

其中各参数的含义如下：

left, right: 要合并的DataFrame对象
how: 连接的模式，包括’left’, ‘right’, ‘outer’, ‘inner’等
on: 指定连接的键，可以是一个字段名的字符串，或者多个字段名组成的列表
left_on, right_on: 分别指定左表和右表连接的键，用于合并不同字段名的两个表
left_index, right_index: 如果为True，则使用左表或者右表的索引作为连接键
sort: 是否按照连接键对结果进行排序
suffixes: 如果左右表有重复的字段名，指定后缀
copy: 是否复制数据
indicator: 是否为合并后的数据增加一个特殊的列，用来指示每行的数据来源

示例数据

为了演示merge函数的用法，我们准备了两个示例数据集df1和df2，分别表示两张表：

import pandas as pd

data1 = {'A': ['A0', 'A1', 'A2', 'A3'],
         'B': ['B0', 'B1', 'B2', 'B3'],
         'key': ['K0', 'K1', 'K2', 'K3']}
df1 = pd.DataFrame(data1)

data2 = {'C': ['C0', 'C1', 'C2', 'C3'],
         'D': ['D0', 'D1', 'D2', 'D3'],
         'key': ['K0', 'K1', 'K2', 'K3']}
df2 = pd.DataFrame(data2)

其中df1包含字段’A’, ‘B’, ‘key’，df2包含字段’C’, ‘D’, ‘key’，两个表根据’key’字段进行连接。

内连接（inner）

内连接是merge函数的默认连接方式，它会将两个表中’key’字段相同的行连接起来，其他行会被舍弃。

result_inner = pd.merge(df1, df2, on='key')
print(result_inner)

运行结果：

    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2
3  A3  B3  K3  C3  D3

左连接（left）

左连接会保留左表中所有行，右表中’key’字段没有匹配的行使用NaN填充。

result_left = pd.merge(df1, df2, on='key', how='left')
print(result_left)

运行结果：

    A   B key    C    D
0  A0  B0  K0   C0   D0
1  A1  B1  K1   C1   D1
2  A2  B2  K2   C2   D2
3  A3  B3  K3   C3   D3

右连接（right）

右连接与左连接相反，会保留右表中所有行，左表中’key’字段没有匹配的行使用NaN填充。

result_right = pd.merge(df1, df2, on='key', how='right')
print(result_right)

运行结果：

     A    B key   C   D
0   A0   B0  K0  C0  D0
1   A1   B1  K1  C1  D1
2   A2   B2  K2  C2  D2
3   A3   B3  K3  C3  D3

外连接（outer）

外连接会保留左表和右表中所有行，匹配不到的行使用NaN填充。

result_outer = pd.merge(df1, df2, on='key', how='outer')
print(result_outer)

运行结果：

    A    B key    C    D
0  A0   B0  K0   C0   D0
1  A1   B1  K1   C1   D1
2  A2   B2  K2   C2   D2
3  A3   B3  K3   C3   D3

通过以上示例数据和运行结果，我们可以看到merge函数在不同的连接方式下的表现。根据具体的需求，选择适合的连接方式可以有效地对数据进行合并和处理。

python 按照字段merge