Python正则表达式提取汉字里的数字|极客笔记

Python正则表达式提取汉字里的数字

在处理中文文本时，经常会遇到需要提取汉字中的数字的情况。通过使用Python中的正则表达式，我们可以轻松地完成这个任务。本文将详细介绍如何使用正则表达式来提取汉字里的数字。

在使用正则表达式之前，首先需要导入Python的re模块。

import re

我们将使用正则表达式来匹配汉字中的数字。以下是我们将要使用的正则表达式：

pattern = r'[\u4e00-\u9fa5]+[0-9]+'

这个正则表达式的意思是匹配汉字后面跟着一个或多个数字的模式。

接下来，我们将使用该正则表达式来提取汉字中的数字。我们将定义一个函数来实现这个功能。

def extract_numbers(text):
    result = re.findall(pattern, text)
    return result

现在，让我们来看一个示例代码，演示如何使用上述函数来提取汉字中的数字。

text = '这是一个测试文本，里面包含12345个数字。这是另一个测试文本，里面包含67890个数字。'
numbers = extract_numbers(text)
print(numbers)

运行上述代码，我们将得到如下输出：

['包含12345', '包含67890']

这表明我们成功提取了汉字中的数字。

通过使用Python的正则表达式，我们可以方便地提取汉字中的数字。这对于处理中文文本数据是非常有用的。