如何在Python中使用正则表达式匹配非单词字符

Python中的正则表达式模块提供了一个强大的工具，用于在字符串中进行模式匹配。正则表达式（也称为regex）使我们能够基于指定的模式搜索、提取和操作文本。文本处理中一个常见的任务是识别非单词字符，包括符号、标点符号和空格。在本文中，我们将探讨在Python中使用正则表达式识别和匹配这些非单词字符的各种方法。我们将使用几个代码示例，并提供逐步解释，以引导您找到字符串中的非单词字符。

匹配单个非单词字符

示例

在第一个示例中，我们首先导入’re’模块，这个模块提供了对Python中正则表达式的支持。考虑一个名为text的示例字符串，其中包含句子“Hello！How are you？”我们的目标是找到该字符串中的所有非单词字符。
使用正则表达式r”\W”来匹配非单词字符。 \W模式是一个速记字符类，用于匹配任何非字母、数字或下划线的字符。它包括符号、标点符号和空格。
然后使用re.findall()函数在文本字符串中搜索模式的所有匹配项。findall()函数返回找到的所有匹配项的列表。

import re

# Sample string
text = "Hello! How are you?"

# Regular expression to match non-word characters
pattern = r"\W"

# Find all non-word characters in the string
matches = re.findall(pattern, text)

# Output the matches
print(matches)

输出结果

['!', ' ', ' ', '?']

结果如下所示，是一个包含匹配的非单词字符的列表：’!’, 三个空格和’?’。

匹配多个非单词字符

例子

在这个代码示例中，我们使用一个名为text的示例字符串，其中包含句子”正则表达式超级棒！！！”。我们的任务是在字符串中找到所有连续的非单词字符序列。
这里使用了正则表达式r”\W+”。正如我们之前学过的，\W模式可以匹配单个非单词字符。+修饰符表示我们想要匹配前一个模式的一个或多个出现。所以，这个表达式将匹配任何一个或多个非单词字符的序列。
我们如前所述使用re.findall()函数在文本字符串中查找所有模式的出现。该函数将返回一个包含所有匹配序列的列表。

import re

# Sample string
text = "Regex is super-duper amazing!!!"

# Regular expression to match multiple non-word characters
pattern = r"\W+"

# Find all sequences of non-word characters in the string
matches = re.findall(pattern, text)

# Output the matches
print(matches)

输出

[' ', ' ', '-', ' ', '!!!']

结果是一个列表，其中包含匹配的非单词字符序列：一个空格，两个连字符和三个感叹号。

匹配非单词字符（不包括空格）

例子

在第三个例子中，我们有一个示例字符串文本，其中包含句子“让我们保持简单”。我们的目标现在是找到字符串中的所有非单词字符，但排除空格。
为此使用正则表达式r”[^\w\s]”。让我们逐步分解它：
\w匹配任何字母数字字符（字母，数字和下划线）。
\s匹配任何空白字符（空格，制表符，换行符等）。
模式开头的^符号否定了表达式，因此[^\w\s]匹配任何不是字母数字字符或空白字符的字符，有效地排除了空格。
与之前一样，我们使用re.findall()函数在文本字符串中找到模式的所有匹配出现，并且它将返回一个列表，其中包含所有匹配的非单词字符（排除空格）。

import re

# Sample string
text = "Let's keep it simple."

# Regular expression to match non-word characters excluding spaces
pattern = r"[^\w\s]"

# Find all non-word characters (excluding spaces) in the string
matches = re.findall(pattern, text)

# Output the matches
print(matches)

输出

["'", '.']

结果是一个包含匹配的非单词字符的列表：一个撇号和一个句号。

使用单词边界来匹配非单词字符

示例

在这个特定的示例中，我们有一个样本字符串文本，其中包含句子”She said: ‘I love regex!’ and smiled.”我们的目标是找到字符串中出现的所有作为完整单词的非单词字符。
用于这个任务的正则表达式r”\b\W+\b”。让我们一步一步地分解它：
\b表示单词边界。它在单词的开头或结尾（其中单词被定义为由字母数字字符和下划线组成的序列）处匹配空字符串。
\W+匹配一个或多个非单词字符。
\b\W+\b确保我们只匹配作为完整单词出现的非单词字符，而不是作为较大单词的一部分出现。
\b\W+\b确保我们只匹配作为完整单词出现的非单词字符，而不是作为较大单词的一部分出现。

import re

# Sample string
text = "She said: 'I love regex!' and smiled."

# Regular expression to match non-word characters using word boundaries
pattern = r"\b\W+\b"

# Find all non-word characters bounded by word boundaries
matches = re.findall(pattern, text)

# Output the matches
print(matches)

输出

[' ', ": '", ' ', ' ', "!' ", ' ']

结果是一个包含匹配的非单词字符的列表：一个冒号前后有空格，一个撇号前后有空格，一个感叹号前后有空格。

使用否定来查找没有非单词字符的单词

示例

在最后一个示例中，我们有一个带有句子”I enjoy Python programming!”的示例字符串文本。现在，我们想要找到字符串中所有没有非单词字符的单词。
为此目的使用了正则表达式r”\b\w+\b”。让我们逐步分解它：
\b代表单词边界，正如前面的示例中所解释的那样。
\w+匹配一个或多个字母数字字符（字母、数字和下划线）。它有效地匹配完整的没有任何非单词字符的单词。
使用re.findall()，我们找到文本字符串中模式的所有出现，并返回一个没有任何非单词字符的匹配单词的列表。

import re

# Sample string
text = "I enjoy Python programming!"

# Regular expression to match words without any non-word characters
pattern = r"\b\w+\b"

# Find all words without any non-word characters
matches = re.findall(pattern, text)

# Output the matches
print(matches)