如何读取没有表头的Pandas CSV文件？

在实际的工作中，我们会遇到一些没有表头的CSV文件。这些文件往往比较难处理，因为我们不知道每一列分别代表什么。如果使用普通的读取CSV文件的方法，会出现各种错误。本文将介绍如何使用Pandas库读取没有表头的CSV文件并避免出现错误。

更多Pandas相关文章，请阅读：Pandas 教程

Pandas库简介

Pandas是一个开源的Python数据分析库，它是Python中一个常用的工具包。它主要提供了两个常用的数据结构：Series和DataFrame。

Series是一种一维的数组结构，可以理解为一个数据列。

DataFrame则是一个二维的表格结构，可以理解为Excel表格中的一个工作表。

使用Pandas库，我们可以方便地处理数据，并进行数据分析和可视化。

读取没有表头的CSV文件

在Pandas库中，我们可以使用read_csv()函数来读取CSV文件。默认情况下，read_csv()函数会假设CSV文件有表头，并把第一行作为表头。这时候，我们需要指定header参数为None，来告诉Pandas库，文件中没有表头。

import pandas as pd

# 没有表头的CSV文件路径
filename = 'data.csv'

# 读取没有表头的CSV文件
df = pd.read_csv(filename, header=None)  # 指定header参数为None

# 打印前5行数据
print(df.head())

此时，输出结果如下：

    0   1   2   3
0  23   4   5  16
1  12  32  23   6
2  13  14  15  16
3  12  32  23   6
4  11  22  33  44

我们可以看到，这个CSV文件中没有表头，但是读取出来的数据没有出现错误。

自定义列名

虽然我们已经能够读取没有表头的CSV文件了，但是这个表格结构看起来有点不太直观。这时候，我们可以根据数据的含义，手动为每一列指定一个列名。

import pandas as pd

# 没有表头的CSV文件路径
filename = 'data.csv'

# 指定列名
names = ['age', 'weight', 'height', 'score']

# 读取没有表头的CSV文件并指定列名
df = pd.read_csv(filename, header=None, names=names)

# 打印前5行数据
print(df.head())

此时，输出结果如下：

   age  weight  height  score
0   23       4       5     16
1   12      32      23      6
2   13      14      15     16
3   12      32      23      6
4   11      22      33     44

现在这个表格看起来更加友好了。我们可以根据列名来理解每列数据的含义。

使用iloc访问数据

虽然我们已经通过指定列名来方便地读取数据了，但是有时候我们会在不知道列名的情况下访问数据。这个时候，可以使用iloc属性来访问数据。

iloc是Pandas中专门用来访问DataFrame中数据的属性。它允许我们使用整数访问数据。例如，df.iloc[0, 0]表示访问第0行第0列的元素。

import pandas as pd

# 没有表头的CSV文件路径
filename = 'data.csv'

# 读取没有表头的CSV文件
df = pd.read_csv(filename, header=None)

# 使用iloc访问数据
print(df.iloc[0, 0])  # 访问第0行第0列的元素

输出结果如下：

这里我们使用了iloc访问了第0行第0列的元素，也就是CSV文件中的第一个数据。

使用to_csv保存有列名的CSV文件

有时候我们需要把处理后的数据保存为CSV文件，这个时候，可以使用to_csv()函数将DataFrame输出为CSV文件。

import pandas as pd

# 没有表头的CSV文件路径
filename = 'data.csv'

# 指定列名
names = ['age', 'weight', 'height', 'score']

# 读取没有表头的CSV文件并指定列名
df = pd.read_csv(filename, header=None, names=names)

# 保存为CSV文件
df.to_csv('output.csv', index=False)  # index参数为False表示不输出行号

上面的代码将处理后的数据保存为output.csv文件。

完整代码

最终的代码如下：

import pandas as pd

# 没有表头的CSV文件路径
filename = 'data.csv'

# 指定列名
names = ['age', 'weight', 'height', 'score']

# 读取没有表头的CSV文件并指定列名
df = pd.read_csv(filename, header=None, names=names)

# 打印前5行数据
print(df.head())

# 使用iloc访问数据
print(df.iloc[0, 0])  # 访问第0行第0列的元素

# 保存为CSV文件
df.to_csv('output.csv', index=False)  # index参数为False表示不输出行号