Pandas 如何将DataFrame保存为gzip/zip文件

可以使用Python中的gzip和zipfile模块将Pandas DataFrame保存为gzip/zip格式。Pandas是一个用于数据处理和分析的Python库。它提供了一个二维标记的数据结构，其中列具有可能不同的数据类型。为了减小数据帧的大小，我们需要将其存储为gzip/zip格式。在本文中，我们将了解如何将Pandas DataFrame保存为gzip/zip文件。

步骤

将Pandas DataFrame保存为压缩的gzip/zip文件的通用算法如下所示。但是，此算法的具体实现可能会因特定的用例和所选的文件格式而有所不同。例如，如果使用PyArrow和Parquet格式，则算法需要使用PyArrow库将DataFrame转换为Parquet表，然后保存到压缩文件中。

导入所需的库：Pandas，gzip/zip库（例如进行zip压缩的zipfile库，进行gzip压缩的gzip库）和PyArrow（如果使用Parquet格式）。
加载或创建要保存为压缩文件的Pandas DataFrame。
选择要使用的压缩方法（gzip或zip），并使用适当的库打开一个文件对象进行写入。例如，如果使用gzip，将使用”gzip.open”创建一个文件对象。
使用适当的方法（例如to_csv，to_pickle，to_parquet）将DataFrame保存到文件对象中，其中的”compression”参数设置为选择的压缩方法。
关闭文件对象。

方法1：使用to_csv()方法

将Pandas DataFrame保存为Gzip文件

Gzip是一种在Python中用于压缩文件的压缩格式。它在Linux和UNIX操作系统中使用。要将Pandas DataFrame保存为gzip文件，我们需要导入gzip模块并使用其open()方法在写模式下创建一个文件对象。然后将文件对象传递给DataFrame对象的to_csv()方法。

语法

df.to_csv('data.csv.gz', index=False, compression='gzip')

在这里，to_csv()方法将一个Pandas DataFrame保存为一个经过gzip压缩的CSV文件。”index=False”参数指定在输出文件中不包含索引列，”compression=’gzip'” 参数告诉方法将gzip压缩应用于输出文件。

示例

在下面的代码中，我们创建了一个包含三列（姓名、年龄和工资）的DataFrame，并将其保存为名为”data.gz”的gzip文件。我们使用 with 语句确保在将DataFrame写入文件后关闭文件对象。”index=False”参数告诉to_csv()方法不将行索引写入文件。

import pandas as pd
import gzip

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a gzip file
with gzip.open('data.gz', 'wb') as f:
   df.to_csv(f, index=False)

输出

数据框将保存为gzip文件，文件的内容如下所示−

Name,Age,Salary
Alice,25,50000
Bob,30,60000
Charlie,35,70000

将Pandas DataFrame保存为Zip文件

Zip是Windows操作系统中常用的压缩文件格式。Python中的zipfile模块提供了一种简单的方式来将Pandas DataFrame保存为压缩的zip文件。

要将Pandas DataFrame保存为zip文件，我们需要导入zipfile模块，并使用其ZipFile()方法以写模式创建一个ZipFile对象。然后，我们可以使用ZipFile对象的open()方法在zip文件中创建一个文件对象。最后，我们可以将这个文件对象传递给DataFrame对象的to_csv()方法。

示例

在下面的代码中，我们创建了一个包含三列（Name、Age和Salary）的DataFrame，并将其保存为名为”data.zip”的zip文件。我们使用 with 语句确保在将DataFrame写入后关闭ZipFile对象。compression=zipfile.ZIP_DEFLATED参数告诉ZipFile对象使用DEFLATE压缩算法。ZipFile对象的open()方法在zip文件中创建了名为”data.csv”的文件对象。index=False参数告诉to_csv()方法不将行索引写入文件中。

import pandas as pd
import zipfile

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
   'Age': [25, 30, 35],
   'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a zip file
with zipfile.ZipFile('data.zip', 'w', compression=zipfile.ZIP_DEFLATED) as z:
   with z.open('data.csv', 'w') as f:
   df.to_csv(f, index=False)

输出

Name    Age Name
Alice   25  Alice
Bob 30  Bob
Charlie 35  Charlie

方法2：使用to_pickle()方法并且启用gzip/zip压缩

DataFrame对象的to_pickle()方法可以用来将DataFrame保存为一个启用gzip或zip压缩的pickle文件。

语法

df.to_pickle('data.pkl.gz', compression='gzip')
df.to_pickle('data.pkl.zip', compression='zip')

在这里， to_pickle() 方法使用gzip或zip压缩将一个Pandas DataFrame保存为压缩的pickle文件。”compression=’gzip'”或”compression=’zip'”参数告诉该方法将gzip或zip压缩应用于输出文件。

示例

在下面的代码中，我们使用to_pickle()方法将DataFrame保存为带有gzip和zip压缩的pickle文件。参数”compression=’gzip'”或”compression=’zip'”告诉该方法将gzip或zip压缩应用于输出文件。

import pandas as pd

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Save DataFrame as a gzipped pickle file
df.to_pickle('data.pkl.gz', compression='gzip')

# Save DataFrame as a zipped pickle file
df.to_pickle('data.pkl.zip', compression='zip')

输出

Name    Age Name
Alice   25  Alice
Bob 30  Bob
Charlie 35  Charlie

方法3：使用gzip/zip压缩和to_parquet方法

可以使用DataFrame对象的to_parquet()方法，使用PyArrow库将DataFrame保存为带有gzip或zip压缩的Parquet文件。

语法

pq.write_table(table, 'data.parquet.gz', compression='gzip')
pq.write_table(table, 'data.parquet.zip', compression='snappy')

在这里，write_table()方法使用PyArrow库将Pandas DataFrame保存为压缩的Parquet文件。”compression=’gzip'”或”compression=’snappy'”参数告诉该方法对输出文件应用gzip或snappy压缩。

示例

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Create a DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
      'Age': [25, 30, 35],
      'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# Convert DataFrame to PyArrow table
table = pa.Table.from_pandas(df)

# Save PyArrow table as a gzipped Parquet file
pq.write_table(table, 'data.parquet.gz', compression='gzip')

# Save PyArrow table as a zipped Parquet file
pq.write_table(table, 'data.parquet.zip', compression='snappy')

输出

Name    Age Name
Alice   25  Alice
Bob 30  Bob
Charlie 35  Charlie

结论

在本文中，我们讨论了如何使用Python将Pandas DataFrame保存为gzip/zip文件。我们使用了gzip模块来创建gzip文件，使用了zipfile模块来创建zip文件。这两种压缩格式都被广泛使用，可以帮助减小大数据文件的大小，使其更容易存储和传输。对于基于文本的数据，gzip倾向于有更好的压缩比率，而zip文件更适合压缩像图片或其他非文本数据等二进制文件。