Pandas 找到Pandas数据框中列中最长字符串的长度

在本文中，我们将介绍如何使用Pandas找到数据框中某一列中最长字符串的长度。这在数据清洗和预处理中非常有用，例如在字符串类型的列上进行统计分析时。

示例数据

我们首先来看一下示例数据。假设我们有如下的数据框：

Name	Age	City
John	32	Beijing
Tim	25	Shanghai
Tina	28	Guangzhou
Lucy	29	Beijing
Bill	30	Shanghai

现在我们想在”City”这一列中找出最长字符串的长度。

方法一：使用apply和len函数

我们可以使用apply函数和len函数，将每个单元格中的字符串作为输入，计算字符串长度，再返回最大值。具体代码如下：

import pandas as pd

# 创建示例数据
data = {'Name': ['John', 'Tim', 'Tina', 'Lucy', 'Bill'], 
        'Age': [32, 25, 28, 29, 30], 
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Beijing', 'Shanghai']}
df = pd.DataFrame(data)

# 计算最长字符串的长度
max_len = df['City'].apply(len).max()

print('最长字符串的长度:', max_len)

输出结果为：

最长字符串的长度: 9

我们可以看到，在”City”列中最长的字符串长度为9。apply函数将每个字符串作为len函数的输入，再返回最大值。

方法二：使用map和len函数

我们也可以使用map函数和len函数，对每个单元格提取字符串，然后计算字符串长度，再返回最大值。具体代码如下：

import pandas as pd

# 创建示例数据
data = {'Name': ['John', 'Tim', 'Tina', 'Lucy', 'Bill'], 
        'Age': [32, 25, 28, 29, 30], 
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Beijing', 'Shanghai']}
df = pd.DataFrame(data)

# 计算最长字符串的长度
max_len = len(max(df['City'].map(str), key=len))

print('最长字符串的长度:', max_len)

输出结果为：

最长字符串的长度: 9

我们可以看到，使用map函数和len函数也可以得到相同的结果。

方法三：使用numpy库中的vectorize函数

此外，我们还可以使用numpy库中的vectorize函数。首先，我们需要定义一个函数，该函数将字符串作为输入，返回字符串长度。然后，我们可以使用vectorize函数将该函数向量化，并将列中的所有字符串映射到该函数上，返回长度向量。最后，我们可以使用numpy库中的amax函数找到向量中的最大值。

具体代码如下：

import pandas as pd
import numpy as np

# 创建示例数据
data = {'Name': ['John', 'Tim', 'Tina', 'Lucy', 'Bill'], 
        'Age': [32, 25, 28, 29, 30], 
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Beijing', 'Shanghai']}
df = pd.DataFrame(data)

# 定义函数
def string_len(s):
    return len(s)

# 向量化函数
vectorized = np.vectorize(string_len)

# 计算最长字符串的长度
max_len = np.amax(vectorized(df['City']))

print('最长字符串的长度:', max_len)

输出结果为：