Numpy NumPy genfromtxt 填充缺失值的正确用法

在本文中，我们将介绍如何正确使用 Numpy 中的 genfromtxt 函数来填充数据缺失值。

在数据处理中，常常会遇到由于数据获取或处理过程中的缺失而导致的数据丢失问题。这时候我们就需要对数据进行填充以保证分析的准确性。Numpy 中的 genfromtxt 函数可以用来读取文本文件中的数据，其中 fill_missing 参数可以用来填充缺失值。

阅读更多：Numpy 教程

genfromtxt 函数简介

Numpy 中的 genfromtxt 函数可以用来读取包含结构化数据的文本文件。该函数可以自动探测数据类型，并能够适应各种数据格式和缺失值。其语法如下：

numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, 
                 skip_header=0, skip_footer=0, converters=None, missing_values=None, 
                 filling_values=None, usecols=None, names=None, excludelist=None, 
                 deletechars=None, replace_space='_', autostrip=False, case_sensitive=True, 
                 defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True)

其中 filling_values 参数用于填充缺失值，如果缺失值不是 NaN，则可以使用 missing_values 参数指定缺失值的字符串表示。

fill_missing 参数的用法

fill_missing 参数是用来指定如何对缺失值进行填充的。可以是一个数字、字符串或一个字典。如果 fill_missing 传递的是一个数字或字符串，那么 genfromtxt 函数将使用该值填充所有缺失值。如下代码所示：

import numpy as np
data = np.genfromtxt('test.csv', delimiter=',', filling_values=0)

上面的代码将读取 test.csv 文件中的数据，并使用 0 来填充所有的缺失值。

当 fill_missing 参数传递的是一个字典时，可以按列指定不同的填充值。字典的键为列索引或列名，值为要用来填充该列的值，如下代码所示：

import numpy as np
fill_values = {'age': -1, 'income': 0}
data = np.genfromtxt('test.csv', delimiter=',', filling_values=fill_values)

上面的代码将使用 -1 来填充 age 列的缺失值，使用 0 来填充 income 列的缺失值。

示例

接下来我们将使用一个示例来演示如何使用 genfromtxt 函数中的 fill_missing 参数。

我们有一个包含 5 列数据的测试文件 test.csv，其中第 1 列为 id，第 2 列为 age，第 3 列为 income，第 4 列为 gender，第 5 列为 occupation。其中有些行缺失了 age 和 income 的值。

id,age,income,gender,occupation
1,20,1000,M,Engineer
2,35,,F,Sales
3,25,8000,M,Doctor
4,,3200,F,Engineer
5,30,,M,Sales

我们将使用 genfromtxt 函数来读取该文件，并使用 fill_missing 参数来填充缺失值。我们将缺失值视为 -1 来填充 age 列和 0 来填充 income 列。

import numpy as np
fill_values = {'age': -1, 'income': 0}
data = np.genfromtxt('test.csv', delimiter=',', filling_values=fill_values)
print(data)

输出结果如下：

[[ 1.0000e+00  2.0000e+01  1.0000e+03  0.0000e+00  0.0000e+00]
 [ 2.0000e+00  3.5000e+01 -1.0000e+00  1.0000e+00  0.0000e+00]
 [ 3.0000e+00  2.5000e+01  8.0000e+03  0.0000e+00  1.0000e+00]
 [ 4.0000e+00 -1.0000e+00  3.2000e+03  1.0000e+00  0.0000e+00]
 [ 5.0000e+00  3.0000e+01 -1.0000e+00  0.0000e+00  1.0000e+00]]

总结

在处理包含缺失值的数据时，我们可以使用 Numpy 中的 genfromtxt 函数来读取文本文件，并使用 fill_missing 参数来填充缺失值。fill_missing 参数可以是一个数字、字符串或一个字典，用于指定如何对缺失值进行填充。如果缺失值不是 NaN，则可以使用 missing_values 参数指定缺失值的字符串表示。