正则表达式元字符

在计算机科学中，正则表达式是一个用来描述字符串结构的表达式。正则表达式中的元字符用来描述一些特殊的字符类和动作，包括匹配、搜索和替换等操作。在本文中，我们将探讨正则表达式中常见的元字符及其用法。

常用元字符

索引符号

^ 表示输入字符串的开始位置。
$ 表示输入字符串的结束位置。

示例代码：

import re

# 匹配开头为数字的字符串
match = re.search(r'^\d+', '123abc')
print(match.group()) # 返回 123

# 匹配结尾为数字的字符串
match = re.search(r'\d+$', 'abc456')
print(match.group()) # 返回 456

通配符

. 表示匹配任意单个字符，但不包括换行符。
* 表示匹配任意多个位于星号前面的字符，可以是0个。

示例代码：

import re

# 匹配任意3个字符
match = re.search(r'...', '123')
print(match.group()) # 返回 123

# 匹配任意多个数字
match = re.search(r'\d*', 'abc123def')
print(match.group()) # 返回 123

字符集

[] 表示匹配字符集中的任意一个字符，可以包含范围和排除字符。
[^] 表示匹配除字符集中的任意一个字符以外的字符。

范围指的是字符的 Unicode 值，例如 [a-z] 表示匹配小写字母 a 到 z。

示例代码：

import re

# 匹配任意一个数字或字母
match = re.search(r'[0-9a-zA-Z]', 'abc123')
print(match.group()) # 返回 a

# 匹配不是数字或字母的字符
match = re.search(r'[^0-9a-zA-Z]', 'abc123!')
print(match.group()) # 返回 !

量词符号

{n} 表示匹配前面的字符刚好出现 n 次。
{n,} 表示匹配前面的字符至少出现 n 次。
{n,m} 表示匹配前面的字符出现 n 到 m 次。

示例代码：

import re

# 匹配连续的数字，出现3次
match = re.search(r'\d{3}', 'abc123456def')
print(match.group()) # 返回 123

# 匹配连续的数字，出现至少3次
match = re.search(r'\d{3,}', 'abc123456def')
print(match.group()) # 返回 123456

# 匹配连续的数字，出现3到6次
match = re.search(r'\d{3,6}', 'abc123456def')
print(match.group()) # 返回 123456

分组

() 表示将多个元素组合为一个整体，并对该组合整体进行匹配。

示例代码：

import re

# 分组后匹配，返回整个子串
match = re.search(r'(abc)\d+', 'abc123def')
print(match.group()) # 返回 abc123

# 分组后单独匹配，返回分组的内容
match = re.search(r'(abc)\d+', 'abc123def')
print(match.group(1)) # 返回 abc

或者

| 表示匹配多个可选项中的任意一个。

示例代码：

import re

# 匹配dog或cat
match = re.search(r'dog|cat', 'I have a dog')
print(match.group()) # 返回 dog

# 匹配数字或字母
match = re.search(r'\d+|[a-zA-Z]+', 'abc123def')
print(match.group()) # 返回 abc

零宽度断言

零宽度断言是一种特殊的正则表达式语法，用于描述任意两个字符之间的位置。它不会匹配任何字符，但仅当它匹配到某个位置时，它才能继续向前匹配。常见的零宽度断言有正前向断言和负前向断言。

(?=...) 表示正前向断言，匹配后面是指定字符串的字符。

示例代码：

import re

# 匹配后面是数字的字符
match = re.search(r'\w(?=\d)', 'a1b2c3')
print(match.group()) # 返回 b

# 匹配后面是abc的字符
match = re.search(r'\w(?=abc)', 'abcd')
print(match.group()) # 返回 d

(?!...) 表示负前向断言，匹配后面不是指定字符串的字符。

示例代码：

import re

# 匹配后面不是数字的字符
match = re.search(r'\w(?!1)', 'a1b2c3')
print(match.group()) # 返回 a

# 匹配后面不是abc的字符
match = re.search(r'\w(?!abc)', 'abcd')
print(match.group()) # 返回 a