Polars 数据处理库详解|极客笔记

Polars 数据处理库详解

什么是 Polars

Polars 是 Rust 语言编写的一个数据处理库，提供了类似于 pandas 的数据操作功能，但是具有更高的性能和更好的内存管理能力。Polars 的特点包括内存映射、零拷贝、快速运算和多线程等，并且提供了 Python 的 API 接口，方便 Python 用户使用。

安装 Polars

首先，我们需要安装 Polars 所需的 Rust 编译工具链，具体步骤如下：

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env

然后，我们可以通过 pip 安装 Polars：

pip install polars

Polars 基本操作

创建 DataFrame

在 Polars 中，DataFrame 是一个类似于表格的数据结构，我们可以通过不同的方法创建 DataFrame，如下所示：

import polars as pl

# 从字典创建 DataFrame
data = {'A': [1, 2, 3, 4],
        'B': ['a', 'b', 'c', 'd']}
df = pl.DataFrame(data)

# 从 CSV 文件创建 DataFrame
df = pl.read_csv('data.csv')

查看 DataFrame

我们可以使用 head() 方法查看 DataFrame 的前几行数据：

print(df.head())

筛选数据

我们可以通过条件筛选数据，如下所示：

filtered_df = df.filter(pl.col('A') > 2)
print(filtered_df)

添加新列

我们可以通过 with_column 方法在 DataFrame 中添加新列：

df = df.with_column(pl.col('C'))

Polars 高级操作

分组统计

我们可以使用 groupby 方法对数据进行分组，并进行统计操作：

grouped_df = df.groupby('B').agg(pl.col('A').mean().alias('avg_A'))
print(grouped_df)

排序

我们可以使用 sort 方法对数据进行排序操作：

sorted_df = df.sort('A', reverse=True)
print(sorted_df)

Polars 与 pandas 比较

虽然 Polars 提供了类似于 pandas 的数据操作功能，但是 Polars 在性能和内存管理方面具有更高的优势。下面我们对比一下 Polars 和 pandas 的性能：

import pandas as pd
import time

# 使用 pandas 生成随机数据
data = {'A': [i for i in range(1000000)],
        'B': [i % 2 for i in range(1000000)]}
df_pd = pd.DataFrame(data)

# 使用 Polars 生成随机数据
df_pl = pl.DataFrame(data)

# pandas 执行时间
start_time = time.time()
df_pd_filtered = df_pd[df_pd['A'] > 500000]
print("pandas execution time:", time.time() - start_time)

# Polars 执行时间
start_time = time.time()
df_pl_filtered = df_pl.filter(pl.col('A') > 500000)
print("Polars execution time:", time.time() - start_time)