pandas 列中的字典转换为新列|极客笔记

pandas 列中的字典转换为新列

在数据处理过程中，经常会遇到需要将列中的字典数据进行转换的情况。本文将详细介绍如何使用Python中的pandas库来将列中的字典数据转换为新列。

假设我们有一个包含字典数据的DataFrame，其中某一列的数据格式如下所示：

import pandas as pd

data = {'A': [{'x': 1, 'y': 2}, {'x': 3, 'y': 4}, {'x': 5, 'y': 6}]}

df = pd.DataFrame(data)
print(df)

输出为：

             A
0  {'x': 1, 'y': 2}
1  {'x': 3, 'y': 4}
2  {'x': 5, 'y': 6}

我们想要将列’A’中的字典数据转换为两个新列’x’和’y’，使数据格式变为如下：

我们可以使用apply函数结合lambda表达式遍历’A’列中的字典数据，并将其转换为新列。具体代码如下：

df['x'] = df['A'].apply(lambda x: x['x'])
df['y'] = df['A'].apply(lambda x: x['y'])

print(df)

运行结果为：

             A  x  y
0  {'x': 1, 'y': 2}  1  2
1  {'x': 3, 'y': 4}  3  4
2  {'x': 5, 'y': 6}  5  6

通过apply函数和lambda表达式，我们成功将字典数据转换为新列。

另一种方法是使用pandas库中的json_normalize函数。该函数可以将嵌套的字典数据转换为平铺的数据结构，方便进一步处理。具体代码如下：

from pandas import json_normalize

df = df.join(json_normalize(df['A']))
df = df.drop(columns=['A'])  # 删除原始列'A'

print(df)

运行结果为：

使用json_normalize函数，我们将列’A’中的字典数据转换为了新的列’x’和’y’。

本文详细介绍了如何使用Python中的pandas库将列中的字典数据转换为新列的方法。通过apply函数和lambda表达式，或者使用json_normalize函数，可以更方便地处理字典数据，使其适用于数据分析和建模的需求。