Python re正则表达式详解|极客笔记

Python re正则表达式详解

正则表达式是对字符串进行模式匹配的一种强大工具，它在文本处理、数据提取、数据清洗等场景中广泛应用。Python的re模块提供了对正则表达式的支持，能够帮助我们轻松地进行字符串的匹配、查找、替换等操作。本文将深入介绍Python中re正则表达式的使用方法，包括常用的正则语法、匹配对象的操作以及一些实际案例分析。

re模块简介

Python中的re模块为处理正则表达式提供了丰富的功能。我们可以通过导入re模块来使用它：

import re

接下来，我们将系统地介绍re模块常用的几个函数及其使用方法。

re.match函数

re.match函数尝试从字符串的起始位置匹配一个模式，如果匹配成功则返回一个匹配对象，否则返回None。其基本语法格式如下：

re.match(pattern, string, flags=0)

其中，pattern为正则表达式的模式，string为要匹配的字符串，flags为匹配选项，可选参数。下面是一个简单的示例：

import re

# 匹配以字母开头的字符串
result = re.match(r'[a-zA-Z]', 'abc123')
if result:
    print(result.group())
else:
    print('No match')

运行结果为：

在上面的示例中，我们使用了[a-zA-Z]的正则表达式模式来匹配以字母开头的字符串。因为字符串'abc123'符合模式要求，所以match函数返回了匹配结果，可以通过group方法获取匹配到的字符串。

re.search函数

re.search函数在字符串中搜索并返回第一个匹配的结果，如果没有找到匹配项则返回None。其基本语法格式如下：

re.search(pattern, string, flags=0)

下面是一个使用re.search函数的示例：

import re

# 在字符串中搜索数字
result = re.search(r'\d', 'abc123')
if result:
    print(result.group())
else:
    print('No match')

运行结果为：

在上面的示例中，我们使用了\d的正则表达式模式来匹配字符串中的数字。因为字符串'abc123'中包含数字1，所以search函数返回了匹配结果。

re.findall函数

re.findall函数用于搜索字符串中所有匹配的子串，并以列表的形式返回。其基本语法格式如下：

re.findall(pattern, string, flags=0)

下面是一个使用re.findall函数的示例：

import re

# 在字符串中找到所有数字
result = re.findall(r'\d', 'abc123')
print(result)

运行结果为：

['1', '2', '3']

在上面的示例中，我们使用了\d的正则表达式模式来找到字符串中的所有数字，并以列表的形式返回。

re.sub函数

re.sub函数用于替换字符串中与正则表达式匹配的子串。其基本语法格式如下：

re.sub(pattern, repl, string, count=0, flags=0)

其中，pattern为要替换的正则表达式模式，repl为替换字符串，string为要替换的原始字符串，count为替换次数，默认为0，表示替换所有匹配项。下面是一个使用re.sub函数的示例：

import re

# 替换字符串中的数字为*
result = re.sub(r'\d', '*', 'abc123')
print(result)

运行结果为：

abc***

在上面的示例中，我们使用了\d的正则表达式模式来匹配字符串中的数字，并将其替换为*。

正则表达式语法

正则表达式由一些普通字符和一些特殊字符构成，这些特殊字符在正则表达式中具有特殊的含义。下面是一些常用的正则表达式语法：

.: 匹配任意一个字符，除了换行符。
^: 匹配字符串的开头。
$: 匹配字符串的结尾。
[]: 匹配括号中的任意一个字符。
*: 匹配前面的字符0次或多次。
+: 匹配前面的字符1次或多次。
?: 匹配前面的字符0次或1次。
{m}: 匹配前面的字符m次。
{m,n}: 匹配前面的字符至少m次，至多n次。
\: 转义字符，表示特殊字符。
|: 或运算，匹配两个模式中的任意一个。

匹配对象的操作

对于re.match和re.search函数返回的匹配对象，我们可以通过一些方法获取匹配结果。下面是一些常用的方法：

group(): 返回匹配到的字符串。
start(): 返回匹配开始的位置。
end(): 返回匹配结束的位置。
span(): 返回一个元组，包含匹配开始和结束的位置。

下面是一个简单的示例：

import re

# 使用match函数匹配字符串
result = re.match(r'abc', 'abcdef')
print(result.group())   # 输出匹配到的字符串
print(result.start())   # 输出匹配开始的位置
print(result.end())     # 输出匹配结束的位置
print(result.span())    # 输出一个元组，包含匹配开始和结束的位置

运行结果为：

abc
0
3
(0, 3)

在上面的示例中，我们使用re.match函数匹配字符串中的'abc'，然后使用匹配对象的方法获取匹配结果。

实际案例分析

在实际应用中，我们通常会用到正则表达式来处理各种文本数据。下面我们通过一个案例来演示如何使用正则表达式来匹配和处理数据。

提取IP地址

假设我们有一个包含IP地址的文本文件ip.txt，现在我们想要提取其中的IP地址信息。我们可以使用正则表达式来实现这个目标。

import re

# 读取文本文件内容
with open('ip.txt', 'r') as f:
    data = f.read()

# 提取IP地址
ips = re.findall(r'\d+\.\d+\.\d+\.\d+', data)

# 打印提取的IP地址
for ip in ips:
    print(ip)

假设ip.txt的内容如下：