正则表达式语法

正则表达式是一种用于匹配字符串模式的工具，它在各种编程语言中都有广泛的应用。在本文中，我们将学习正则表达式语法的基础知识，以及如何使用它来匹配字符串。

基础语法

正则表达式由一系列字符和特殊字符组成，它使用单个字符串来描述匹配某种模式的规则。例如，正则表达式/[a-z]+/表示匹配至少一个小写字母的连续字符序列。其中，正斜杠（/）表示正则表达式的起始和结束，方括号（[]）表示字符集合，加号（+）表示匹配至少一次。

下面是一些基本的正则表达式语法：

字符表示自身：正则表达式中的大多数字符表示自身，如字母、数字和一些标点符号。
字符集合：方括号可以用来表示一个可选的字符集合，如[aeiou]表示匹配元音字母。
反义字符集：在方括号内使用一个插入符号（^）来表示反义字符集，如[^aeiou]表示匹配除元音字母以外的任何字符。
量词符号：量词符号用于匹配重复出现的模式。例如，星号（*）表示零个或多个，加号（+）表示一个或多个，问号（？）表示零个或一个，花括号（{n,m}）表示介于n和m次之间的重复次数。
选择符号：选择符号（|）用于表示两个或多个模式中的一个，如cat|dog表示匹配”cat”或”dog”。

下面是一些示例代码：

import re

# 匹配至少一个小写字母的连续字符序列
pattern = re.compile(r'[a-z]+')
match = pattern.search('hello world')
print(match.group(0))  # 'hello'

# 匹配元音字母
pattern = re.compile(r'[aeiou]')
matches = pattern.findall('hello world')
print(matches)  # ['e', 'o', 'o']

# 匹配除元音字母以外的任何字符
pattern = re.compile(r'[^aeiou]')
matches = pattern.findall('hello world')
print(matches)  # ['h', 'l', 'l', ' ', 'w', 'r', 'l', 'd']

# 匹配连续重复出现的字符
pattern = re.compile(r'(.)\1+')
match = pattern.search('aaabbbccc')
print(match.group(0))  # 'aaa'

# 匹配"cat"或"dog"
pattern = re.compile(r'cat|dog')
match = pattern.search('I have a cat')
print(match.group(0))  # 'cat'

特殊字符

正则表达式中有一些特殊字符，它们具有特殊的含义，用于描述一些常见的字符模式。下面是一些常见的特殊字符：

句点符号（.）：匹配任何单个字符，除了换行符。
插入符号（^）：匹配输入字符串的开头。
美元符号（$）：匹配输入字符串的结尾。
问号符号（？）：可以将前面的量词符号（*、+、{n,m}）转换为非贪婪模式，尽可能少地匹配重复出现的模式。
反斜杠字符（\）：可以用来转义特殊字符，如.、^、$、*、+、?、{、}、[、]、\、|、()。反斜杠字符也用来表示一些特殊字符，如\d表示匹配任何数字字符，\w表示匹配任何字母或数字字符，\s表示匹配任何空白字符（空格、制表符、换行符等），\b表示匹配一个单词边界。

下面是一些示例代码：

import re

# 匹配任何单个字符
pattern = re.compile(r'.at')
matches = pattern.findall('cat hat flat')
print(matches)  # ['cat', 'hat', 'lat']

# 匹配输入字符串的开头
pattern = re.compile(r'^cat')
match = pattern.search('cat hat')
print(match.group(0))  # 'cat'

# 匹配输入字符串的结尾
pattern = re.compile(r'hat$')
match = pattern.search('cat hat')
print(match.group(0))  # 'hat'

# 非贪婪模式
pattern = re.compile(r'a{1,3}?')
match = pattern.search('aaaa')
print(match.group(0))  # 'a'

# 转义特殊字符
pattern = re.compile(r'\d+')
matches = pattern.findall('0123456789')
print(matches)  # ['0123456789']

# 匹配一个单词边界
pattern = re.compile(r'\bcat\b')
match = pattern.search('catch a cat')
print(match.group(0))  # 'cat'

分组和引用

正则表达式中有时需要将子模式标记为一个单元，并对它们进行引用。这时可以使用圆括号（）将子模式分组。分组还可以用于限制量词、添加选择项和捕获匹配内容。分组的引用可以在同一正则表达式内引用该组或在后续使用中使用\1、\2等反向引用。

下面是一些示例代码：

import re

# 匹配重复的数字序列
pattern = re.compile(r'(\d)\1+')
match = pattern.search('122333444455555')
print(match.group(0))  # '22'

# 限制量词
pattern = re.compile(r'(cat){2}')
match = pattern.search('cattycat')
print(match.group(0))  # 'catcat'

# 添加选择项
pattern = re.compile(r'(cat|dog)')
match = pattern.search('I have a dog')
print(match.group(0))  # 'dog'

# 捕获匹配内容
pattern = re.compile(r'(\d{4})-(\d{2})-(\d{2})')
match = pattern.search('2022-07-29')
print(match.groups())  # ('2022', '07', '29')

# 反向引用
pattern = re.compile(r'(\d{4})-(\d{2})-(\d{2})')
match = pattern.search('2022-07-29')
print(match.group(2))  # '07'
print(pattern.sub(r'\2/\3/\1', '2022-07-29'))  # '07/29/2022'

标志

在正则表达式中，可以使用标志来控制匹配的行为。标志可以修改匹配的方式，如是否区分大小写、是否匹配换行符等。不同的编程语言支持的标志和标志名称可能不同，下面是一些常见的标志：

i：不区分大小写。
m：匹配每行的起始和结尾。
s：使句点符号匹配任何字符，包括换行符。
x：忽略空格和注释。
u：使用Unicode模式，支持更多的Unicode字符。

下面是一些示例代码：

import re

# 不区分大小写
pattern = re.compile(r'cat', re.IGNORECASE)
match = pattern.search('Cat and dog')
print(match.group(0))  # 'Cat'

# 匹配每行的起始和结尾
pattern = re.compile(r'^cat', re.MULTILINE)
matches = pattern.findall('cat and\ncat')
print(matches)  # [''cat', 'cat']

# 匹配换行符
pattern = re.compile(r'.+', re.DOTALL)
match = pattern.search('cat\n dog')
print(match.group(0))  # 'cat\n dog'

# 忽略空格和注释
pattern = re.compile(r'''cat  # 匹配cat
                         dog  # 匹配dog''', re.VERBOSE)
match = pattern.search('cat dog')
print(match.group(0))  # 'cat dog'

# Unicode模式
pattern = re.compile(r'\w+', re.UNICODE)
matches = pattern.findall('Café')
print(matches)  # ['Ca', 'fé']