Pandas dataframe中如何删除NaN/NULL列

在数据分析中，常常会遇到数据缺失的情况，这些缺失值一般被标记为NaN或NULL。当处理一个大型数据集时，经常需要去除这些值，因为它们往往会导致不准确的结果。本文将介绍如何通过Pandas dataframe删除这些NaN/NULL值所在的列。

阅读更多：Pandas 教程

使用dropna()函数删除NaN/NULL列

Pandas提供了许多有用的函数来删除NaN/NULL列，其中一个常用的函数是dropna()。该函数的一般形式如下：

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis: 0表示删除行，1表示删除列，默认为0；
how: ‘any’表示只要存在NaN/NULL就删除整个行或列，’all’表示全部都是NaN/NULL才删除；
thresh: 表示保留的非NaN/NULL值的个数阈值，如果某一列非NaN/NULL值的数量小于该值，则该列被删除；
subset: 只在特定的列中删除；
inplace: 是否对原df进行修改，默认为False。

下面是一些用法示例：

import pandas as pd
import numpy as np

# 创建一个带有NaN值的dataframe
df = pd.DataFrame({'A':[1, 2, np.nan, 4], 'B':[5, 6, 7, np.nan], 'C':[8, np.nan, 10, 11]})

# 删除所有包含NaN值的列
df.dropna(axis=1, how='any', inplace=True)
print(df)

# 删除所有元素都是NaN的列
df = pd.DataFrame({'A':[1, 2, np.nan, 4], 'B':[5, 6, 7, np.nan], 'C':[8, np.nan, 10, 11], 'D':[np.nan, np.nan, np.nan, np.nan]})
df.dropna(axis=1, how='all', inplace=True)
print(df)

# 设置thresh参数：只保留至少有3个非NaN/NULL元素的列
df = pd.DataFrame({'A':[1, 2, np.nan, 4], 'B':[5, 6, 7, np.nan], 'C':[8, np.nan, 10, 11], 'D':[12, 13, 14, 15]})
df.dropna(axis=1, how='any', thresh=3, inplace=True)
print(df)

# 在特定的列中删除包含NaN值的行
df = pd.DataFrame({'A':[1, 2, np.nan, 4], 'B':[5, np.nan, 7, np.nan], 'C':[8, np.nan, 10, 11]})
df.dropna(subset=['B'], inplace=True)
print(df)

以上示例展示了如何使用dropna()函数删除包含NaN/NULL值的行或列。你也可以使用其他的参数来定制删除的方式。

使用notnull()函数筛选非NaN/NULL列

除了使用dropna()函数，还可以使用notnull()函数来筛选非NaN/NULL值所在的列。notnull()函数返回一个布尔数组，该数组的元素值为True或False，表示相应元素是否为NaN/NULL值。根据这个数组，可以选择保留所有非NaN/NULL值所在的列，或者剔除所有包含NaN/NULL值的列。下面是一些用法示例：

import pandas as pd
import numpy as np

# 创建一个带有NaN值的dataframe
df = pd.DataFrame({'A':[1, 2, np.nan, 4], 'B':[5, 6, 7, np.nan], 'C':[8, np.nan, 10, 11]})

# 选择所有非NaN/NULL值所在的列
df = df.loc[:, df.notnull().all()]
print(df)

# 剔除所有包含NaN/NULL值的列
df = df.loc[:, df.isnull().any()]
print(df)

总结

在本文中，我们介绍了通过Pandas删除NaN/NULL列的两种方法：dropna()函数和notnull()函数。两种方法各有优缺点，具体使用取决于数据的大小、缺失值的分布以及处理的目的等因素。

当数据集规模比较大，且缺失值比例不是很大时，一般可以使用dropna()函数，因为它可以快速地删除所有包含NaN/NULL值的行或列，并且可以通过thresh参数设置非NaN/NULL值数量的阈值。但是，当缺失值比例比较高时，dropna()函数可能会删除大量的行或列，导致数据的严重损失，因此需要谨慎使用。

另一方面，notnull()函数可以通过isnull()函数生成的布尔数组来选择需要的列，因此可以更加灵活地根据需求保留或剔除某些列，但是需要多一些代码来实现相应的功能。

总的来说，通过本文的介绍，读者可以更加熟练地使用Pandas来处理NaN/NULL值所在的列，并根据不同的数据特点选择合适的方法。