如何在Python中从结构化字符串中提取所需数据？

在数据分析和机器学习领域，如何从结构化字符串中提取所需数据是很常见的需求。在Python中，通过使用正则表达式、字符串解析等技术可以轻松地实现这个功能。

正则表达式

正则表达式是一种用于匹配字符串的表达式，可以从一个字符序列中匹配出我们想要的子串。在Python中，通过re模块提供的方法可以解析结构化的字符串，提取所需数据。

例如，假设我们有一个字符串如下所示：

text = "Name: Tim Cook\nTitle: CEO\nCompany: Apple Inc."

我们可以使用正则表达式来提取姓名、职位和公司名：

import re

pattern = r'Name:\s*(.*?)\s*Title:\s*(.*?)\s*Company:\s*(.*?)$'
match = re.match(pattern, text, re.DOTALL)

for i in range(1, 4):
    print(match.group(i))

输出：

Tim Cook
CEO
Apple Inc.

这里，我们使用re.match方法，并传入三个参数：正则表达式模式、需要匹配的字符串和标志（re.DOTALL表示让.匹配任何字符，包括换行符）。然后，我们可以使用group方法获取正则表达式匹配的每个组的值。

字符串解析

如果字符串不是非常规则的，我们可以使用字符串解析的方式来提取所需数据。字符串解析的基本思路是从一个字符串中按照特定的分割符将字符串分割成多个部分，并获取所需的那部分内容。

例如，假设我们有一个字符串如下所示：

text = "Name: Tim Cook, Title:CEO, Company: Apple Inc."

我们可以使用字符串解析来提取姓名、职位和公司名：

text_list = text.split(",")
name = text_list[0].split(":")[1].strip()
title = text_list[1].split(":")[1].strip()
company = text_list[2].split(":")[1].strip()

print(name)
print(title)
print(company)

输出：