如何使用pandas库来检查一列是否包含另一列的数据|极客笔记

如何使用pandas库来检查一列是否包含另一列的数据

在数据处理中，经常会遇到需要检查一列数据是否包含另一列数据的情况。在Python的pandas库中，我们可以很方便地实现这个功能。本文将介绍如何使用pandas库来检查一列是否包含另一列的数据，并在包含的情况下替换成另一列的数据，如果不包含则保持原样。

准备工作

在开始之前，我们需要导入pandas库，并创建一个包含两列数据的DataFrame作为示例数据。

import pandas as pd

data = {
    'col1': ['deepinout.com', 'hello', 'world', 'deepinout.com', 'python'],
    'col2': ['deepinout.com', 'python', 'deepinout.com', 'world', 'hello']
}

df = pd.DataFrame(data)
print(df)

Output:

如何使用pandas库来检查一列是否包含另一列的数据

运行以上代码，我们可以看到创建的DataFrame。

检查一列是否包含另一列的数据

首先，我们需要编写一个函数来检查一列是否包含另一列的数据。我们可以使用apply方法结合lambda函数来实现这个功能。

def check_contains(row):
    if row['col1'] in row['col2']:
        return True
    else:
        return False

df['contains'] = df.apply(lambda row: check_contains(row), axis=1)
print(df)

运行以上代码，我们可以看到DataFrame中新增了一列contains，用来表示col1是否包含在col2中的情况。

替换包含的数据

接下来，我们将实现一个函数来替换包含的数据。如果col1包含在col2中，我们将col2的值替换成col1的值。

def replace_contains(row):
    if row['contains']:
        return row['col1']
    else:
        return row['col2']

df['col2'] = df.apply(lambda row: replace_contains(row), axis=1)
print(df)

运行以上代码，我们可以看到DataFrame中col2的值已经被替换成了col1的值。

完整示例代码

下面是一个完整的示例代码，包含了以上的所有步骤：

import pandas as pd

data = {
    'col1': ['deepinout.com', 'hello', 'world', 'deepinout.com', 'python'],
    'col2': ['deepinout.com', 'python', 'deepinout.com', 'world', 'hello']
}

df = pd.DataFrame(data)
print(df)

def check_contains(row):
    if row['col1'] in row['col2']:
        return True
    else:
        return False

df['contains'] = df.apply(lambda row: check_contains(row), axis=1)
print(df)

def replace_contains(row):
    if row['contains']:
        return row['col1']
    else:
        return row['col2']

df['col2'] = df.apply(lambda row: replace_contains(row), axis=1)
print(df)

Output:

如何使用pandas库来检查一列是否包含另一列的数据