Python 提取字符串到第一个非字母数字字符程序
Python字符串是表示信息或数据的字符序列。普通字符串可以包含单引号或双引号之间封闭的各种字符,但是字母数字字符串只包含数字和字母。字母数字和非字母数字字符串在包括密码保护、数据处理和验证、格式化等各种场景中都被使用和应用。
可以识别和提取特定模式。 我们还可以使用这些类型的字符串提供不同的组合。 我们将根据这些字符串执行操作。 我们的任务是提取一个字符串,直到遇到第一个非字母数字字符为止。
理解问题
我们必须从原始字符串中提取子字符串,直到遇到非字母数字字符为止。让我们通过一个示例来理解这个问题。
输入输出场景
让我们考虑一个具有以下值的字典 –
Input: Inp_STR = "Sales18@22!Roam"
给定的字符串由字母、数字和特殊字符组成。当我们遇到一个非字母数字字符时,我们必须提取一个子字符串。
Output: Sales18
正如我们所看到的,原字符串中返回了一个子字符串“ Sales18 ”,因为在该子字符串之后遇到了一个非字母数字字符,即“@”。现在我们已经理解了问题陈述,让我们讨论一些解决方案。
使用迭代
这是一种基本且简单的提取字符串的方法,基于所提供的条件。我们将传递一个字符串,并创建一个新变量,该变量将存储所有字母数字字符,即字母(大写和小写)和数字。之后,我们将遍历原字符串,并迭代每个字符。
我们将建立一个条件,检查原字符串的字符是否为字母数字字符。一旦遇到非字母数字字符,循环将中断并返回子字符串。
示例
以下是一个示例,提取到第一个非字母数字字符为止的字符串:
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")
ExSTR = ""
alphaNum = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz1234567890"
for x in Inp_STR:
if x not in alphaNum:
break
else:
ExSTR += x
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")
输出
The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18
使用Regex模块+搜索()
Regex模块或“re”模块是一种强大的编程工具,用于搜索和匹配模式。这些模式以唯一的表达式形式传递。使用该模块,我们会在原始字符串中检测非字母数字模式,并检索到第一个遇到的序列。我们使用“search()”函数在字符串中搜索非字母数字模式,该模式由表达式“\W+”表示。
“\W”表示非字母数字类,而“+”设置了连续匹配非字母数字字符的逻辑。 “start()”方法返回匹配子字符串的起始索引,而该索引值将用于检索所需的子字符串。
示例
以下是一个示例−
import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")
ExSTR = re.search(r"\W+", Inp_STR).start()
print(f"The 1st non-alphanumeric character is encountered at: {ExSTR}")
ExSTR = Inp_STR[ : ExSTR]
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")
输出
The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18
使用Regex模块+Findall()
这是一种提取字符串直到遇到非字母数字字符的另一种方法。在这种方法中,我们将使用re模块中的“ findall() ”函数来查找由字母数字字符组成的所有子字符串的出现次数。
我们将获得一系列匹配的子字符串,并使用“ 0 ”索引值检索第一个子字符串。我们将使用正则表达式:[\dA-Za-z]*
,表示连续零个或多个字母数字字符。
正则表达式符号“ \d ”匹配0到9之间的任何数字,“ A-Z ”匹配A到Z之间的任何大写字母,“ a-z ”匹配a到z之间的任何小写字母。
示例
以下是一个示例−
import re
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")
ExSTR = re.findall(r"[\dA-Za-z]*", Inp_STR)[0]
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")
输出
The original string is: Sales18@22Roam
The extracted string till 1st Non-Alphanumeric character: Sales18
使用Isalnum()方法
在这种方法中,我们将遍历原始字符串中每个字符的索引,并建立一个条件,该条件将检查索引“ x ”处的字符是否不是字母数字字符。这是通过使用“ isalnum() ”方法来确定字符串的字母数字性质来完成的。之后,我们将使用列表切片来提取到第一个字母数字字符为止的字符串。
示例
以下是一个示例:
Inp_STR = "Sales18@22Roam"
print(f"The original string is: {Inp_STR}")
for x in range(len(Inp_STR)):
if not Inp_STR[x].isalnum():
ExSTR = Inp_STR[:x]
print(f"The 1st non-alphanumeric character is encountered at: {x}")
break
else:
ExSTR = Inp_STR
print(f"The extracted string till 1st Non-Alphanumeric character: {ExSTR}")
输出
The original string is: Sales18@22Roam
The 1st non-alphanumeric character is encountered at: 7
The extracted string till 1st Non-Alphanumeric character: Sales18
结论
在本文中,我们讨论了一些高效和优化的方案,用于在遇到第一个非字母数字字符时从字符串中提取子字符串。我们了解了简单和粗暴的解决方案以及先进和优化的解决方案。我们使用了正则表达式模块,并使用了它的“ search() ”和“ findall() ”函数来提取相关字符串。最后,我们讨论了另一种基于列表切片的解决方案,其中涉及了“ isalnum() ”方法的使用。