什么是正则表达式？|极客笔记

什么是正则表达式？

正则表达式(regular expression)是一种文本模式，用于匹配或查找某些符合特定规则的文本串。通俗来说，就是一种搜索文本的方式。有些人将正则表达式比喻为”搜索引擎”，因为它们能够快速地搜索、匹配、替换文本中的内容。

正则表达式通常由一系列字符组成，在这些字符中，有一些字符被赋予了特殊含义(比如”.”、”*”等)，而其余字符则表示字面意思。

正则表达式的基本语法

匹配文本串

在正则表达式中，字符类([])用于从一组字符中匹配单个字符。例如，”[abc]”将匹配”a”、”b”或”c”中的任意一个字符。

示例代码：

import re

text = "Hello World"
pattern = 'World'

# 匹配模式
match = re.search(pattern, text)

if match:
  print("匹配到结果: ", match.group())
else:
  print("没有匹配到结果")

在上面的例子中，我们使用正则表达式的search方法在一个字符串中查找匹配模式。模式表示要查找的字符串”World”。如果该模式可以从字符串中找到，则返回一个Match对象。

使用点表示任意字符

“.”是正则表达式中的特殊字符之一，表示匹配除”\n”以外的任何字符。

示例代码：

const text = "Hello World";
const pattern = /H...o/;

if (text.match(pattern)) {
  console.log("匹配成功");
} else {
  console.log("匹配失败");
}

在上面的例子中，我们使用正则表达式的match方法匹配模式”H…o”。在文本串中，只有”Hello”部分匹配了模式，所以匹配结果为”匹配成功”。

匹配空格字符

空格字符有多种变体，如空格、制表符(tab)、垂直制表符(vtab)、换行符、回车符等。为了表示这些字符，我们使用如下的特殊符号：

空格符：” “
制表符：\t
垂直制表符:\v
换行符：\n
回车符：\r

示例代码：

$text = "Hello World";
$pattern = "/\sW.*/";

if (preg_match($pattern, $text)) {
  echo "匹配成功";
} else {
  echo "匹配失败";
}

在上面的例子中，我们使用PHP中的preg_match方法匹配模式”/\sW.*/”，其中”\s”表示一个空格字符，模式表示查找以空格字符后，以”w”作为首字母，后面跟着任意长度的字符。在文本串中，由于” World”部分匹配了模式，所以匹配结果为”匹配成功”。

匹配重复字符

在正则表达式中，有两个特殊的字符可以用于表示重复出现的字符。

“*”表示零个或多个字符匹配。
“+”表示一个或多个字符匹配。

示例代码：

String text = "Hello World";
String pattern = "W.*";

if (text.matches(pattern)) {
  System.out.println("匹配成功");
} else {
  System.out.println("匹配失败");
}

在上面的例子中，我们使用Java中的matches方法匹配模式”W.*”。模式表示要匹配以”W”字符开头，而后跟着任意数量的任意字符。由于在文本串中，” World”匹配模式，所以匹配结果为”匹配成功”。

匹配字符集合

正则表达式中，用方括号([])来匹配字符集合。字符集合是由一组字符组成的集合，其中的字符是可以匹配的字符。字符集合可以用来匹配单个字符，也可以用来匹配某些特定的字符。

示例代码：

text = "Hello World"
pattern = /[aeiou]/ # 匹配任意一个元音字母

if pattern.match?(text)
  puts "匹配成功"
else
  puts "匹配失败"
end

在上面的例子中，我们使用Ruby中的正则表达式匹配条件(if pattern.match?(text))，判断文本串中是否包含任意一个元音字母。由于字符集合/[aeiou]/表示匹配任意一个元音字母，因此匹配结果为”匹配成功”。

匹配位置

正则表达式还可以用来匹配某些特定的位置，比如单词的边界、行首、行尾等。这些位置都有特定的标记，在正则表达式中使用。

\b：匹配单词边界(单词字符和非单词字符之间的位置)。

^：匹配行的开始。

$：匹配行的结束。

示例代码：

const text = "Hello World";
const pattern = /^[a-z]+$/;

if (text.match(pattern)) {
  console.log("匹配成功");
} else {
  console.log("匹配失败");
}

在上面的例子中，我们使用JS中的match方法匹配模式/^[a-z]+$/。模式表示匹配以一个或多个小写字母组成的单词的整个字串。由于”Hello”并不是整个字串，所以匹配失败，匹配结果为”匹配失败”。

正则表达式的高级用法

正则表达式还有一些高级用法，可以实现更复杂的匹配操作。

分组和捕获

在正则表达式中，可以使用圆括号()来创建一个分组。分组中的字符可以被当做整体进行匹配和捕获。

示例代码：

import re

text = "Hello World"
pattern = '(\w+)\s(\w+)'

# 匹配模式
match = re.search(pattern, text)

if match:
  print(match.group(1))  # "Hello"
  print(match.group(2))  # "World"
else:
  print("没有匹配到结果")

在上面的例子中，我们使用Python中的正则表达式search方法查找模式(r'(\w+)\s(\w+)’)。这个模式表示匹配单词(其中包含数字、字母、下划线，且数量不定)与空格，并且把单词分为两个组。由于文本串中”Hello World”符合模式，因此分别打印出了”Hello”和”World”。

零宽度断言

零宽度断言是指在匹配正则表达式的过程中，只针对某一特定位置进行匹配，即在“断言”的位置处进行匹配判断，但实际上并不会消耗任何字符。零宽度断言由一对方括号括起来，放在被匹配的字符或子串前面或后面。

正则表达式在匹配的过程中，如果遇到特定的位置，正则表达式引擎会在没有读取任何字符的情况下，检查当前位置是否满足特定的条件，只有满足条件，才会从当前位置继续向后匹配。

以下是常见的零宽度断言：

正向预查(?=exp)：表示所在位置之后必须出现exp表达式，但匹配结果不包含该表达式。

负向预查(?!exp)：表示所在位置之后必须不出现exp表达式。

正向回顾后发(<=exp)：表示所在位置之前必须出现exp表达式，并且匹配结果也不包含该表达式。

负向回顾后发(<!exp)：表示所在位置之前必须不出现exp表达式。

示例代码：

const text = "Hello World. Welcome to China.";
const pattern = /(?<=World\. )\w+/g;

const matchResult = text.match(pattern);
console.log(matchResult); // ["Welcome"]

在上面的例子中，我们使用JS中的match方法匹配模式(?<=World. )\w+。这个模式表示匹配单词，且该单词出现在”World. “之后。由于文本串中只有一个这样的单词”Welcome”，因此匹配结果为[“Welcome”]。