Python 提取字符串到第一个非字母数字字符程序

Python字符串是表示信息或数据的字符序列。普通字符串可以包含单引号或双引号之间封闭的各种字符，但是字母数字字符串只包含数字和字母。字母数字和非字母数字字符串在包括密码保护、数据处理和验证、格式化等各种场景中都被使用和应用。

可以识别和提取特定模式。我们还可以使用这些类型的字符串提供不同的组合。我们将根据这些字符串执行操作。我们的任务是提取一个字符串，直到遇到第一个非字母数字字符为止。

理解问题

我们必须从原始字符串中提取子字符串，直到遇到非字母数字字符为止。让我们通过一个示例来理解这个问题。

输入输出场景

让我们考虑一个具有以下值的字典 –

Input: Inp_STR = "Sales18@22!Roam"

给定的字符串由字母、数字和特殊字符组成。当我们遇到一个非字母数字字符时，我们必须提取一个子字符串。

Output: Sales18

正如我们所看到的，原字符串中返回了一个子字符串“ Sales18 ”，因为在该子字符串之后遇到了一个非字母数字字符，即“@”。现在我们已经理解了问题陈述，让我们讨论一些解决方案。

使用迭代

这是一种基本且简单的提取字符串的方法，基于所提供的条件。我们将传递一个字符串，并创建一个新变量，该变量将存储所有字母数字字符，即字母（大写和小写）和数字。之后，我们将遍历原字符串，并迭代每个字符。

我们将建立一个条件，检查原字符串的字符是否为字母数字字符。一旦遇到非字母数字字符，循环将中断并返回子字符串。

示例

以下是一个示例，提取到第一个非字母数字字符为止的字符串：

Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = ""
alphaNum = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz1234567890"
for x in Inp_STR:
   if x not in alphaNum:
      break
   else:
      ExSTR += x
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18

使用Regex模块+搜索()

Regex模块或“re”模块是一种强大的编程工具，用于搜索和匹配模式。这些模式以唯一的表达式形式传递。使用该模块，我们会在原始字符串中检测非字母数字模式，并检索到第一个遇到的序列。我们使用“search()”函数在字符串中搜索非字母数字模式，该模式由表达式“\W+”表示。

“\W”表示非字母数字类，而“+”设置了连续匹配非字母数字字符的逻辑。 “start()”方法返回匹配子字符串的起始索引，而该索引值将用于检索所需的子字符串。

示例

以下是一个示例−

import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = re.search(r"\W+", Inp_STR).start()
print(f"The 1st non-alphanumeric character is encountered at: {ExSTR}")
ExSTR = Inp_STR[ : ExSTR]

print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18

使用Regex模块+Findall()

这是一种提取字符串直到遇到非字母数字字符的另一种方法。在这种方法中，我们将使用re模块中的“ findall() ”函数来查找由字母数字字符组成的所有子字符串的出现次数。

我们将获得一系列匹配的子字符串，并使用“ 0 ”索引值检索第一个子字符串。我们将使用正则表达式：[\dA-Za-z]*，表示连续零个或多个字母数字字符。

正则表达式符号“ \d ”匹配0到9之间的任何数字，“ A-Z ”匹配A到Z之间的任何大写字母，“ a-z ”匹配a到z之间的任何小写字母。

示例

以下是一个示例−

import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

ExSTR = re.findall(r"[\dA-Za-z]*", Inp_STR)[0]
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18

使用Isalnum()方法

在这种方法中，我们将遍历原始字符串中每个字符的索引，并建立一个条件，该条件将检查索引“ x ”处的字符是否不是字母数字字符。这是通过使用“ isalnum() ”方法来确定字符串的字母数字性质来完成的。之后，我们将使用列表切片来提取到第一个字母数字字符为止的字符串。

示例

以下是一个示例：

Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")

for x in range(len(Inp_STR)):
   if not Inp_STR[x].isalnum():
      ExSTR = Inp_STR[:x]
      print(f"The 1st non-alphanumeric character is encountered at: {x}")
      break
   else:
      ExSTR = Inp_STR
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")

输出

The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18

结论

在本文中，我们讨论了一些高效和优化的方案，用于在遇到第一个非字母数字字符时从字符串中提取子字符串。我们了解了简单和粗暴的解决方案以及先进和优化的解决方案。我们使用了正则表达式模块，并使用了它的“ search() ”和“ findall() ”函数来提取相关字符串。最后，我们讨论了另一种基于列表切片的解决方案，其中涉及了“ isalnum() ”方法的使用。