正则表达式 []

什么是正则表达式

正则表达式是一种描述模式的表达式语言，它可以用来匹配、搜索、替换以及验证文本内容。正则表达式通常由字母、数字和符号组成，它们在文本中执行模式匹配的操作。

在编程语言中，正则表达式通常被用作文本处理和文本匹配的一种工具，比如在Python、Java、JavaScript、PHP等语言中都有相关的正则表达式支持库。

正则表达式基础语法

正则表达式有一定的语法规则，在同一编程语言中可能略有不同，下面我们先来看一下最基础的正则表达式语法：

字符匹配

字符匹配是正则表达式中最基础的语法之一，它可以用来匹配单个字符或者一组字符。可以使用特殊字符类来匹配一组特定的字符，例如：

.：匹配任意字符。
[]：匹配括号中的任意单个字符。
[^]：不匹配括号中的任何一个字符。

在实际使用中，我们可以通过使用括号将多个字符分组，例如：

(abc): 匹配字符串”abc”。

示例代码：

import re

# 匹配数字
pattern = r"\d"
test_str = "abc123def"
print(re.findall(pattern, test_str))  # ['1', '2', '3']

# 匹配字符集合
pattern = r"[a-zA-Z]"
test_str = "abc123DEF"
print(re.findall(pattern, test_str))  # ['a', 'b', 'c', 'D', 'E', 'F']

# 匹配任意字符
pattern = r"."
test_str = "abc123_DEF"
print(re.findall(pattern, test_str))  # ['a', 'b', 'c', '1', '2', '3', '_', 'D', 'E', 'F']

# 匹配不在集合中的字符
pattern = r"[^a-zA-Z]"
test_str = "abc123_DEF"
print(re.findall(pattern, test_str))  # ['1', '2', '3', '_']

重复匹配

重复匹配是指多次匹配同一个字符串或一组字符串，它可以通过使用*、+、?、{m}、{m,n}、{m,}等不同的符号来实现。

*：匹配零个或多个重复。
+：匹配一个或多个重复。
?：匹配零个或一个重复。
{m}：恰好匹配m个重复。
{m,n}：匹配m个到n个重复。
{m,}：匹配至少m个重复。

示例代码：

import re

# 匹配0或多个数字
pattern = r"\d*"
test_str = "abc123def"
print(re.findall(pattern, test_str))  # ['', '123', '', '']

# 匹配1或多个数字
pattern = r"\d+"
test_str = "abc123def"
print(re.findall(pattern, test_str))  # ['123']

# 匹配0或1个数字
pattern = r"\d?"
test_str = "abc123def"
print(re.findall(pattern, test_str))  # ['', '1', '', '2', '', '3', '', '']

# 匹配3个数字
pattern = r"\d{3}"
test_str = "abc123def456"
print(re.findall(pattern, test_str))  # ['123', '456']

# 匹配2-5个数字
pattern = r"\d{2,5}"
test_str = "abc1234567def"
print(re.findall(pattern, test_str))  # ['123', '4567']

# 匹配至少3个数字
pattern = r"\d{3,}"
test_str = "abc1234567890def"
print(re.findall(pattern, test_str))  # ['123', '4567890']

### 边界匹配

边界匹配是指匹配一个字符串开始或结束的位置，它可以通过使用`^`和` $`符号来实现。 - `^`：匹配字符串的开头。 - `$ `：匹配字符串的结尾。

示例代码：

```python
import re

# 匹配以abc开头的字符串
pattern = r"^abc"
test_str = "abcdefg"
print(re.findall(pattern, test_str))  # ['abc']

# 匹配以def结尾的字符串
pattern = r"def $" test_str = "abcdefg" print(re.findall(pattern, test_str)) # ['def'] # 匹配整个字符串 pattern = r"^abcdefg$ "
test_str = "abcdefg"
print(re.findall(pattern, test_str))  # ['abcdefg']

正则表达式实战应用

下面我们将介绍一些正则表达式实战应用场景，包括邮箱验证、手机号码验证和URL地址解析等。

邮箱验证

邮箱验证是正则表达式最常见的应用之一，下面我们来看一下邮箱验证的正则表达式代码。

import re

pattern = r"^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"
test_str = "test@example.com"
print(re.findall(pattern, test_str))  # ['test@example.com']

以上代码中的正则表达式可以匹配大多数邮箱地址。解释一下正则表达式中各个符号的含义：

^：匹配字符串的开头。
\w：匹配任意字母、数字或下划线。
+：重复匹配一次或多次。
*：重复匹配零次或多次。
[]：匹配括号中的任意单个字符。
[-.]：匹配横杠或者点号。
\.：匹配点号。
$：匹配字符串的结尾。

手机号码验证

手机号码验证也是正则表达式应用的一个经典场景，下面我们来看一下手机号码验证的正则表达式代码。

import re

pattern = r"^1[3456789]\d{9}$"
test_str = "13812345678"
print(re.findall(pattern, test_str))  # ['13812345678']

以上代码中的正则表达式可以匹配大多数手机号码。解释一下正则表达式中各个符号的含义：

^：匹配字符串的开头。
1：匹配数字1。
[3456789]：匹配数字3、4、5、6、7、8、9中的一个。
\d：匹配任意数字。
{9}：恰好匹配9个数字。
$：匹配字符串的结尾。

URL地址解析

URL地址解析是正则表达式比较复杂的应用场景之一，下面我们来看一下URL地址解析的正则表达式代码。

import re

pattern = r"^(http|https|ftp)://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"
test_str = "https://www.example.com/path/to/page.html?id=123&category=456"
print(re.findall(pattern, test_str))  # [('https', 'www.', '/path/to/page.html?id=123&category=456')]

以上代码中的正则表达式可以匹配大多数URL地址。解释一下正则表达式中各个符号的含义：