pandas.errors.parsererror: error tokenizing data|极客笔记

pandas.errors.parsererror: error tokenizing data

1. 引言

在数据处理过程中，经常会遇到通过pandas库读取和处理数据的情况。然而，有时候在读取数据时会出现错误，其中一种常见的错误是”pandas.errors.parsererror: error tokenizing data”。这个错误通常是由于数据中存在格式不正确或不一致的部分导致的。

在本文中，我们将详细解释这个错误的产生原因，以及如何处理和避免这种情况。

2. 错误原因

pandas库中的read_csv函数通常用于读取CSV文件中的数据。当使用该函数读取数据时，如果数据文件中存在非法字符、格式不正确或者分隔符不一致等问题，就会导致”pandas.errors.parsererror: error tokenizing data”这个错误的发生。

下面我们将通过一个示例来演示这个错误的产生：

import pandas as pd

# 创建一个包含非法字符的CSV文件
with open('data.csv', 'w') as f:
    f.write('a,b,c\n1,2,3\n4,5,$6\n7,8,9')

# 尝试读取该文件
df = pd.read_csv('data.csv')

运行上面的代码会报错，错误信息为：

ParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 4

可以看到，由于第三行数据中包含了一个非法字符”$”，导致pandas无法正确解析这行数据，从而出现了parsererror。

3. 解决方法

3.1 删除错误行

一种解决该问题的方法是直接删除包含非法字符或格式不正确的行。这样可以消除错误的数据，使得pandas能够成功读取和解析数据。

import pandas as pd

# 创建一个包含非法字符的CSV文件
with open('data.csv', 'w') as f:
    f.write('a,b,c\n1,2,3\n4,5,$6\n7,8,9')

# 读取数据，忽略错误行
df = pd.read_csv('data.csv', error_bad_lines=False)
print(df)

运行结果：

   a  b  c
0  1  2  3
1  7  8  9

通过设置error_bad_lines=False参数，我们告诉pandas忽略错误行，从而成功读取了数据。

3.2 自定义分隔符

有时候数据文件中的分隔符可能不是逗号，而是其他字符，例如分号或制表符。在这种情况下，我们需要在读取数据时指定正确的分隔符。

import pandas as pd

# 创建一个使用分号作为分隔符的CSV文件
with open('data.csv', 'w') as f:
    f.write('a;b;c\n1;2;3\n4;5;$6\n7;8;9')

# 读取数据，指定分隔符为分号
df = pd.read_csv('data.csv', sep=';')
print(df)

运行结果：

   a  b  c
0  1  2  3
1  4  5  $6
2  7  8  9

通过设置sep=';'参数，我们告诉pandas使用分号作为分隔符，成功读取了数据。

4. 结论

在数据处理过程中，遇到”pandas.errors.parsererror: error tokenizing data”这个错误时，我们可以通过删除错误行或者自定义分隔符的方式来解决问题。同时，在处理数据前，建议先检查数据文件是否格式正确，避免出现类似错误。

pandas.errors.parsererror: error tokenizing data