Python 正则表达式匹配中文

正则表达式简介

正则表达式是一种用来描述字符串模式的一种语言。在 Python 中，可以使用内置的 re 模块来操作正则表达式。

使用正则表达式可以实现各种对字符串的操作，如匹配、查找、替换等。在处理文本内容时，正则表达式是一种非常强大的工具。

中文字符编码

在 Python 中处理中文字符时，需要考虑字符编码问题。常见的中文字符编码有 GBK、UTF-8 等。使用不同的编码方式可能会导致字符串无法正确显示或无法正确匹配。

下面使用以下中文字符串作为例子：

text = "我是一段中文字符串"

正则表达式匹配中文

对于中文字符的匹配，可以使用 \u4e00-\u9fa5 表示所有中文字符的范围。

以下是使用正则表达式匹配中文字符的例子：

import re

text = "我是一段中文字符串"
pattern = "[\u4e00-\u9fa5]+"
result = re.findall(pattern, text)
print(result)
# 输出结果：['我是一段中文字符串']

上述例子中，使用正则表达式 [\u4e00-\u9fa5]+ 匹配所有中文字符。[\u4e00-\u9fa5] 表示单个中文字符的范围，+ 表示匹配一个或多个中文字符。

如果要匹配多个中文词语，则可以使用 .*?[\u4e00-\u9fa5]+.*? 的正则表达式。

中文字符编码问题

在使用正则表达式匹配中文字符时，需要考虑字符编码问题。

以下是一个使用 GBK 编码的字符串例子：

text = "我是一段中文字符串".encode('gbk')

如果使用 UTF-8 编码对其进行正则表达式匹配，会出现以下错误：

# 错误示例
import re

text = "我是一段中文字符串".encode('gbk')
pattern = "[\u4e00-\u9fa5]+"
result = re.findall(pattern, text)
print(result)
# 报错信息：'charmap' codec can't decode byte 0xc4 in position 0: character maps to <undefined>

在这种情况下，需要先将 GBK 编码的字符串解码为 Unicode 编码，再使用正则表达式进行匹配：

# 正确示例
import re

text = "我是一段中文字符串".encode('gbk').decode('gbk')
pattern = "[\u4e00-\u9fa5]+"
result = re.findall(pattern, text)
print(result)
# 输出结果：['我是一段中文字符串']