Python创建一个DataFrame|极客笔记

Python创建一个DataFrame

在数据分析和处理中，Pandas是一个非常流行的库，它提供了许多强大的数据结构和函数，用于快速、简便地处理结构化数据。其中最重要的数据结构之一就是DataFrame。

DataFrame类似于电子表格或数据库表，它是一个二维表，每一列可以是不同的数据类型。我们可以通过Pandas库快速地创建一个DataFrame，并对其进行各种操作。

创建DataFrame

首先，我们需要导入Pandas库并创建一些数据，然后将这些数据转换为DataFrame。

import pandas as pd

# 创建一个字典，包含一些数据
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
        'Age': [25, 30, 35, 40, 45],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']}

# 将字典转换为DataFrame
df = pd.DataFrame(data)

# 显示DataFrame
print(df)

输出如下：

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
4    Emily   45      Phoenix

这样我们就成功地创建了一个DataFrame，并显示了表格中的数据。

从CSV文件中创建DataFrame

除了手动创建数据之外，我们还可以从外部文件中导入数据来创建DataFrame。其中最常见的文件格式之一就是CSV文件。

假设我们有一个名为data.csv的CSV文件，包含以下数据：

Name,Age,City
Alice,25,New York
Bob,30,Los Angeles
Charlie,35,Chicago
David,40,Houston
Emily,45,Phoenix

我们可以使用Pandas的read_csv()函数来读取该文件并将其转换为DataFrame。

# 从CSV文件中读取数据
df = pd.read_csv('data.csv')

# 显示DataFrame
print(df)

输出与之前手动创建的DataFrame相同。

操作DataFrame

一旦我们创建了DataFrame，就可以对其进行各种操作，包括选择特定的行和列、过滤数据、合并数据等。

选择特定的行和列

我们可以使用列的名称或索引来选择DataFrame中的特定行和列。

# 选择特定的列
print(df['Name'])

# 选择特定的行
print(df.loc[2])

过滤数据

我们可以根据特定的条件过滤DataFrame中的数据。

# 过滤年龄大于30的数据
filtered_df = df[df['Age'] > 30]

# 显示过滤后的DataFrame
print(filtered_df)

合并数据

我们可以将多个DataFrame按照特定的方式合并起来。

# 创建第二个DataFrame
data2 = {'Name': ['Fiona', 'George'],
         'Age': [50, 55],
         'City': ['Denver', 'Seattle']}
df2 = pd.DataFrame(data2)

# 合并两个DataFrame
merged_df = pd.concat([df, df2])

# 显示合并后的DataFrame
print(merged_df)