如何在Python中指定正则表达式的重复次数？

在Python中，正则表达式是一个十分强大的工具，可以帮助我们高效地处理字符串。在正则表达式中，重复符号常常被用来简化表达式，以提高编写效率。本文将介绍如何在Python中指定正则表达式的重复次数，以及常用的重复符号。

重复符号的种类

在Python中，正则表达式的重复符号有以下几种：

* 表示匹配前一个字符或子表达式0次或多次。
+ 表示匹配前一个字符或子表达式1次或多次。
? 表示匹配前一个字符或子表达式0次或1次。
{m} 表示匹配前一个字符或子表达式恰好m次。
{m,} 表示匹配前一个字符或子表达式至少m次。
{m,n} 表示匹配前一个字符或子表达式至少m次，至多n次。

示例代码

下面是一些示例代码，以帮助我们更好地理解正则表达式的重复符号：

import re

# *示例
pattern1 = re.compile('a*')
print(pattern1.match(''))  # <re.Match object; span=(0, 0), match=''>
print(pattern1.match('a'))  # <re.Match object; span=(0, 1), match='a'>
print(pattern1.match('aa'))  # <re.Match object; span=(0, 2), match='aa'>

# +示例
pattern2 = re.compile('a+')
print(pattern2.match(''))  # None
print(pattern2.match('a'))  # <re.Match object; span=(0, 1), match='a'>
print(pattern2.match('aa'))  # <re.Match object; span=(0, 2), match='aa'>

# ?示例
pattern3 = re.compile('a?')
print(pattern3.match(''))  # <re.Match object; span=(0, 0), match=''>
print(pattern3.match('a'))  # <re.Match object; span=(0, 1), match='a'>
print(pattern3.match('aa'))  # <re.Match object; span=(0, 1), match='a'>

# {m}示例
pattern4 = re.compile('a{2}')
print(pattern4.match('a'))  # None
print(pattern4.match('aa'))  # <re.Match object; span=(0, 2), match='aa'>
print(pattern4.match('aaa'))  # <re.Match object; span=(0, 2), match='aa'>

# {m,}示例
pattern5 = re.compile('a{2,}')
print(pattern5.match('a'))  # None
print(pattern5.match('aa'))  # <re.Match object; span=(0, 2), match='aa'>
print(pattern5.match('aaa'))  # <re.Match object; span=(0, 3), match='aaa'>

# {m,n}示例
pattern6 = re.compile('a{1,3}')
print(pattern6.match('a'))  # <re.Match object; span=(0, 1), match='a'>
print(pattern6.match('aa'))  # <re.Match object; span=(0, 2), match='aa'>
print(pattern6.match('aaa'))  # <re.Match object; span=(0, 3), match='aaa'>
print(pattern6.match('aaaa'))  # <re.Match object; span=(0, 3), match='aaa'>

re.findall方法

除了使用match方法对单个字符串进行匹配之外，我们还可以使用findall方法对字符串列表进行匹配。例如，我们可以使用以下代码对一个包含多个email地址的字符串列表进行匹配，以提取其中的email地址：

import re

text = '我的email地址是123@abc.com，而小李的email地址是456@def.com。'
pattern = re.compile(r'\w+@\w+\.\w+')
email_list = pattern.findall(text)
print(email_list)  # ['123@abc.com', '456@def.com']

re.sub方法

在字符串中，有时候我们需要替换匹配到的内容。这时候可以使用re模块的sub方法。sub方法能够搜索匹配正则表达式的字符串，并将其替换为指定字符串，然后返回替换后的字符串。

下面是一个示例代码，我们将字符串中的所有数字替换为’#’：

import re

text = 'abc123def456abc789'
pattern = re.compile(r'\d+')
result = pattern.sub('#', text)
print(result)  # abc#def#abc#

使用括号分组

括号可以用来标记正则表达式中的子表达式，从而将子表达式作为整体进行处理，这样我们就可以使用重复符号对子表达式进行重复。括号内的子表达式还可以使用分组号进行引用。

下面是一个示例代码，我们使用括号分组，将email地址中的用户名和邮箱服务器分离：

import re

address = 'johndoe@mail.com'
pattern = re.compile(r'(\w+)@(\w+\.\w+)')
match = pattern.match(address)
if match:
    username = match.group(1)
    server = match.group(2)
    print(f'用户名为：{username}')
    print(f'邮箱服务器为：{server}')