Pandas loc column 的详细介绍与应用|极客笔记

Pandas loc column 的详细介绍与应用

在数据分析和数据处理领域，Python 的 pandas 库是一个非常强大的工具，它提供了大量的功能来方便地处理和分析数据。其中，DataFrame 是 pandas 中最常用的数据结构之一，它是一个二维的、表格型的数据结构。在 DataFrame 中，loc 属性是一个非常重要的工具，它允许我们通过标签选择数据。

本文将详细介绍 loc 的使用方法，并通过多个示例代码展示如何在实际中应用 loc 来选择和修改 DataFrame 中的数据。

1. `loc` 属性简介

loc 属性是用于访问 DataFrame 中的数据的主要方法之一。它可以接受多种类型的键（比如：单个标签、标签列表、标签切片等），并返回数据的一个视图。使用 loc 可以非常方便地根据行标签和列标签来选择数据。

示例代码 1：创建 DataFrame 并使用 loc 选择单列

import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[:, 'A']
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 2：使用 loc 选择多列

import pandas as pd

data = {
    'A': [10, 20, 30],
    'B': [40, 50, 60],
    'C': [70, 80, 90]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[:, ['A', 'B']]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 3：使用 loc 选择行和列的交叉点

import pandas as pd

data = {
    'A': [100, 200, 300],
    'B': [400, 500, 600],
    'C': [700, 800, 900]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc['pandasdataframe.com1', 'A']
print(result)

Output:

Pandas loc column 的详细介绍与应用

2. 使用 loc 进行切片

loc 不仅可以选择数据的特定行和列，还可以进行切片操作，这在处理大型数据集时非常有用。

示例代码 4：使用 loc 进行行切片

import pandas as pd

data = {
    'A': [1000, 2000, 3000],
    'B': [4000, 5000, 6000],
    'C': [7000, 8000, 9000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc['pandasdataframe.com1':'pandasdataframe.com2', :]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 5：使用 loc 进行列切片

import pandas as pd

data = {
    'A': [10000, 20000, 30000],
    'B': [40000, 50000, 60000],
    'C': [70000, 80000, 90000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[:, 'A':'B']
print(result)

Output:

Pandas loc column 的详细介绍与应用

3. 使用 loc 进行条件选择

loc 还可以与条件表达式结合使用，这使得根据某些条件来选择数据变得非常简单。

示例代码 6：使用条件表达式选择数据

import pandas as pd

data = {
    'A': [100000, 200000, 300000],
    'B': [400000, 500000, 600000],
    'C': [700000, 800000, 900000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[df['A'] > 150000, :]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 7：结合多个条件进行选择

import pandas as pd

data = {
    'A': [1000000, 2000000, 3000000],
    'B': [4000000, 5000000, 6000000],
    'C': [7000000, 8000000, 9000000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[(df['A'] > 1500000) & (df['B'] < 5500000), :]
print(result)

Output:

Pandas loc column 的详细介绍与应用

4. 使用 loc 修改数据

loc 不仅可以用来选择数据，还可以用来修改数据。这在数据预处理和数据清洗过程中非常有用。

示例代码 8：修改单个值

import pandas as pd

data = {
    'A': [10, 20, 30],
    'B': [40, 50, 60],
    'C': [70, 80, 90]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc['pandasdataframe.com1', 'A'] = 100
print(df)

Output:

Pandas loc column 的详细介绍与应用

示例代码 9：修改一整行的值

import pandas as pd

data = {
    'A': [100, 200, 300],
    'B': [400, 500, 600],
    'C': [700, 800, 900]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc['pandasdataframe.com1', :] = [1000, 2000, 3000]
print(df)

Output:

Pandas loc column 的详细介绍与应用

示例代码 10：修改一整列的值

import pandas as pd

data = {
    'A': [1000, 2000, 3000],
    'B': [4000, 5000, 6000],
    'C': [7000, 8000, 9000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc[:, 'A'] = [10000, 20000, 30000]
print(df)

Output:

Pandas loc column 的详细介绍与应用

5. 使用 loc 插入新列

除了选择和修改数据，loc 还可以用来插入新的列。这在添加数据或者特征工程时非常有用。

示例代码 11：插入新列

import pandas as pd

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc[:, 'D'] = [10, 20, 30]
print(df)

Output:

Pandas loc column 的详细介绍与应用

6. 使用 loc进行复杂的数据操作

loc 不仅限于简单的数据选择和修改，它也可以用来进行更复杂的数据操作，如基于条件的复杂修改、多列数据的处理等。

示例代码 12：基于条件修改多列数据

import pandas as pd

data = {
    'A': [100, 200, 300],
    'B': [400, 500, 600],
    'C': [700, 800, 900]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc[df['A'] > 150, ['B', 'C']] = [[5000, 6000], [7000, 8000]]
print(df)

Output:

Pandas loc column 的详细介绍与应用

示例代码 13：使用 loc 进行复杂的行列选择

import pandas as pd

data = {
    'A': [1000, 2000, 3000],
    'B': [4000, 5000, 6000],
    'C': [7000, 8000, 9000]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
result = df.loc[df['A'] > 1000, ['B', 'C']]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 14：结合函数使用 loc

import pandas as pd

data = {
    'A': [10, 20, 30],
    'B': [40, 50, 60],
    'C': [70, 80, 90]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc[:, 'D'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
print(df)

Output:

Pandas loc column 的详细介绍与应用

7. 使用 loc 处理缺失数据

在数据分析中，处理缺失数据是一个常见的任务。loc 可以帮助我们识别和修改那些含有缺失值的行或列。

示例代码 15：填充缺失数据

import pandas as pd
import numpy as np

data = {
    'A': [np.nan, 200, np.nan],
    'B': [400, np.nan, 600],
    'C': [700, 800, 900]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df.loc[df['A'].isnull(), 'A'] = df['A'].mean()
print(df)

Output:

Pandas loc column 的详细介绍与应用

示例代码 16：删除含有缺失值的行

import pandas as pd
import numpy as np

data = {
    'A': [100, np.nan, 300],
    'B': [400, 500, np.nan],
    'C': [700, 800, 900]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3'])
df = df.loc[df.notna().all(axis=1)]
print(df)

Output:

Pandas loc column 的详细介绍与应用

8. 使用 loc 进行数据聚合

在数据分析中，聚合是一个重要的步骤，它可以帮助我们从数据中提取有价值的信息。loc 可以与其他 pandas 功能结合使用，以进行数据聚合。

示例代码 17：使用 loc 进行分组聚合

import pandas as pd

data = {
    'A': [10, 20, 30, 40, 50],
    'B': [100, 200, 300, 400, 500],
    'Group': ['X', 'Y', 'X', 'Y', 'X']
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3', 'pandasdataframe.com4', 'pandasdataframe.com5'])
grouped = df.groupby('Group')
result = grouped.apply(lambda x: x.loc[:, 'A':'B'].sum())
print(result)

示例代码 18：使用 loc 与时间序列数据

import pandas as pd

date_rng = pd.date_range(start='1/1/2022', end='1/10/2022', freq='D')
data = {
    'A': range(10),
    'B': range(10, 20)
}
df = pd.DataFrame(data, index=date_rng)
result = df.loc['2022-01-05':'2022-01-07', :]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 19：使用 loc 进行多层索引选择

import pandas as pd

tuples = [('A', 'one'), ('A', 'two'), ('B', 'one'), ('B', 'two')]
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
data = {
    'X': [1, 2, 3, 4],
    'Y': [5, 6, 7, 8]
}
df = pd.DataFrame(data, index=index)
result = df.loc[('A', 'one'), :]
print(result)

Output:

Pandas loc column 的详细介绍与应用

示例代码 20：使用 loc 进行复杂的数据操作

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [2, 3, 4, 5, 6]
}
df = pd.DataFrame(data, index=['pandasdataframe.com1', 'pandasdataframe.com2', 'pandasdataframe.com3', 'pandasdataframe.com4', 'pandasdataframe.com5'])
df.loc[df['A'] > 3, 'D'] = df['B'] + df['C']
print(df)

Output:

Pandas loc column 的详细介绍与应用