pandas 字典嵌套字典|极客笔记

pandas 字典嵌套字典

在 pandas 中，有时候我们会遇到需要处理嵌套字典的情况。嵌套字典是指字典中的值也是字典的情况，这种数据结构在实际的数据处理中是非常常见的。本文将详细介绍如何用 pandas 处理字典嵌套字典的情况。

创建嵌套字典

首先，让我们来创建一个嵌套字典作为示例数据。假设我们有一个嵌套字典，表示不同城市的人口和面积信息。

data = {
    'New York': {
        'population': 8623000,
        'area': 783.8
    },
    'Los Angeles': {
        'population': 3990456,
        'area': 1214.9
    },
    'Chicago': {
        'population': 2705994,
        'area': 606.1
    },
    'Houston': {
        'population': 2320268,
        'area': 1703.8
    }
}

这个 data 字典中，键是城市名，值是一个包含人口和面积信息的字典。

将嵌套字典转换为 DataFrame

接下来，我们可以将这个嵌套字典转换为 pandas 的 DataFrame 对象。我们可以通过 pd.DataFrame.from_dict() 方法将字典转换为 DataFrame。

import pandas as pd

df = pd.DataFrame.from_dict(data, orient='index')
print(df)

运行上面的代码，我们可以得到以下输出：

            population    area
New York      8623000   783.8
Los Angeles   3990456  1214.9
Chicago       2705994   606.1
Houston       2320268  1703.8

可以看到，我们成功地将嵌套字典转换为了 DataFrame。每一行对应一个城市，每一列对应一个属性（人口和面积）。

访问嵌套字典的值

在 DataFrame 中，我们可以通过列名和行索引来访问数据。对于嵌套字典的情况，我们可以使用多级索引来访问内部字典的值。

# 访问 New York 的人口
population_ny = df.loc['New York', 'population']
print("Population of New York:", population_ny)

# 访问 Los Angeles 的面积
area_la = df.loc['Los Angeles', 'area']
print("Area of Los Angeles:", area_la)

运行上面的代码，我们可以得到以下输出：

Population of New York: 8623000
Area of Los Angeles: 1214.9

通过多级索引，我们可以方便地访问嵌套字典中内部字典的值。

添加新的列

除了访问数据，我们还可以向 DataFrame 中添加新的列。假设我们需要计算每个城市的人口密度（人口 / 面积），我们可以这样添加新的列：

df['population_density'] = df['population'] / df['area']
print(df)

运行上面的代码，我们可以看到 DataFrame 中多了一个 population_density 列，表示每个城市的人口密度。

结语

以上就是关于如何在 pandas 中处理字典嵌套字典的详细介绍。通过将嵌套字典转换为 DataFrame，我们可以方便地对数据进行操作和分析。

pandas 字典嵌套字典