pandas str.contains()方法详解|极客笔记

pandas str.contains()方法详解

在数据分析中，我们经常需要对数据进行匹配和筛选，pandas库提供了许多字符串处理方法，其中str.contains()方法可以方便地对文本数据进行模糊匹配。本文将详细介绍str.contains()方法的用法及示例。

什么是str.contains()方法

str.contains()方法是pandas Series对象的一个字符串处理方法，用于检查每个元素是否包含指定的子字符串。该方法返回一个布尔值的Series，表示每个元素是否包含指定的子字符串。

语法

Series.str.contains(self, pat, case=True, flags=0, na=nan, regex=True)

参数说明：

pat：要匹配的字符串，可以是字符串、正则表达式或列表。
case：是否区分大小写，默认为True。
flags：正则表达式标记。
na：缺失值表示。
regex：是否将pat参数视为正则表达式。

示例

首先，我们创建一个包含文本数据的DataFrame作为示例数据：

import pandas as pd

data = {'text': ['hello world', 'pandas is great', 'data analysis', 'python programming']}
df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到DataFrame的内容如下：

	text
0	hello world
1	pandas is great
2	data analysis
3	python programming

接下来，我们使用str.contains()方法筛选包含特定子字符串的行：

result = df[df['text'].str.contains('world')]
print(result)

运行以上代码，筛选结果如下：

	text
0	hello world

我们还可以使用正则表达式进行匹配，例如查找以p开头的行：

result = df[df['text'].str.contains('^p', regex=True)]
print(result)

运行以上代码，筛选结果如下：

	text
1	pandas is great
3	python programming

除了单一的匹配外，str.contains()还支持对多个字符串进行匹配，例如查找包含python或pandas的行：

result = df[df['text'].str.contains('python|pandas', regex=True)]
print(result)

运行以上代码，筛选结果如下：

	text
1	pandas is great
3	python programming

注意事项

在使用str.contains()方法时，需要注意以下几点：
1. 默认情况下，str.contains()方法是区分大小写的，可以通过设置case=False参数实现大小写不敏感的匹配。
2. 当pat参数为正则表达式时，需要将regex参数设为True。
3. 在某些情况下，正则表达式可能会导致性能下降，应谨慎使用。