Pandas Pandas: 如何解决“error tokenizing data”问题

在本文中，我们将介绍遇到“error tokenizing data”错误时，如何使用Pandas解决这个问题。

当我们在使用Pandas的read_csv方法读取csv文件时，有时候会遇到“error tokenizing data”错误。这个错误的意思是，Pandas无法正确地解析csv文件中的某些行或某些列。这种情况下，Pandas会停止解析，并抛出异常。

接下来，我们将讨论两种常见的方法来解决这个问题。

阅读更多：Pandas 教程

问题复现

我们首先创建一个csv文件，并在其中添加一些损坏的数据。例如，我们可以用Excel打开这个文件，并在某个单元格中输入“=1/0”，这样就会出现一个“#DIV/0!”的错误。你的csv文件应该长这个样子：

id,name,value
1,apple,10
2,pear,NaN
3,banana,#DIV/0!
4,strawberry,5

在Python中，我们可以使用Pandas来读取这个文件。我们只需要执行下面代码中的一行即可。（前提是已经安装了Pandas）

import pandas as pd
df = pd.read_csv('data.csv')

读取时，Pandas会报如下错误：

ParserError: Error tokenizing data. C error: Expected 3 fields in line 4, saw 4

这个错误告诉我们，在第4行中，Pandas只预期有3个字段，但实际上有4个字段。

Pandas默认使用逗号作为字段分隔符。而在一些情况下，我们的csv文件并不是用逗号分隔的，而是用其他符号分隔的，比如分号或者制表符。这种情况下，我们可以通过指定分隔符的方式来解决这个问题。

我们可以在read_csv方法中，添加参数sep来指定分隔符。例如，如果我们的文件中使用分号作为分隔符，我们可以这样读取文件：

import pandas as pd
df = pd.read_csv('data.csv', sep=';')

这一次，我们会看到Pandas成功地读取了csv文件，并生成了一张数据表。但是，我们可以看到，在第三行的value列中，Pandas并没有正确地解析出数据。这就是Pandas遇到坏数据时的默认行为。对于这种情况，我们需要使用第二种方法来修复数据。

在某些情况下，比如读取csv文件中包含日期或者时间格式的列时，我们需要指定列的数据类型，而不是使用Pandas默认的数据类型。这种情况下，Pandas会尝试使用默认的数据类型，但是如果遇到坏数据，就无法解析数据，抛出“error tokenizing data”错误。

有时候，我们也可以用这种方法来修复坏数据。例如，在我们的示例中，我们可以让Pandas将value列强制转换成数值类型。我们可以在read_csv方法中，添加参数dtype来指定字段的数据类型。例如，我们可以这样读取文件：

import pandas as pd
df = pd.read_csv('data.csv', dtype={'id': int, 'name': str, 'value': float})

此时，Pandas将value列强制解析为浮点类型，而不是使用默认的数据类型。这一次，Pandas会成功地读取csv文件，并将第三行的value列解析为NaN，而不是抛出异常。

本文介绍了遇到“error tokenizing data”错误时，如何使用Pandas解决这个问题。我们讨论了两种常见的方法：指定分隔符和指定数据类型。通过掌握这些技巧，我们可以更好地读取、处理、分析csv文件，并顺利地避免“error tokenizing data”错误。