Python构建DataFrame|极客笔记

Python构建DataFrame

在数据分析和处理过程中，DataFrame是一种常用的数据结构，用于存储和处理二维数据。Python的pandas库提供了丰富的功能来操作DataFrame，包括数据的导入、导出、筛选、整合等操作。本文将介绍如何使用Python构建DataFrame，以便更好地处理和分析数据。

导入pandas库

首先，我们需要导入pandas库，如果你还没有安装该库，可以通过以下命令进行安装：

!pip install pandas

导入pandas库的代码如下：

import pandas as pd

创建DataFrame

有多种方法可以创建DataFrame，下面我们逐一介绍这些方法。

从列表创建DataFrame

我们可以使用列表来创建DataFrame，每个列表代表一列数据。例如，创建一个包含学生信息的DataFrame：

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Score': [85, 90, 88, 92]}
df = pd.DataFrame(data)
print(df)

运行结果如下：

      Name  Age  Score
0    Alice   20     85
1      Bob   21     90
2  Charlie   22     88
3    David   23     92

从字典创建DataFrame

除了使用列表，我们还可以使用字典来创建DataFrame。字典的key将作为列名，value将作为数据。例如：

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Score': [85, 90, 88, 92]}
df = pd.DataFrame(data)
print(df)

运行结果与上面的示例相同。

从列表列表创建DataFrame

有时候我们从外部数据源读取的数据是以列表列表的形式存在的，可以直接使用这些列表列表创建DataFrame。例如：

data = [['Alice', 20, 85],
        ['Bob', 21, 90],
        ['Charlie', 22, 88],
        ['David', 23, 92]]
df = pd.DataFrame(data, columns=['Name', 'Age', 'Score'])
print(df)

从CSV文件创建DataFrame

在实际项目中，我们经常需要从CSV文件中读取数据创建DataFrame。假设我们有一个名为students.csv的文件，包含学生信息，可以使用以下代码创建DataFrame：

df = pd.read_csv('students.csv')
print(df)

需要确保students.csv文件存在，并且符合CSV文件格式。

DataFrame的基本操作

一旦创建了DataFrame，我们可以对其进行多种操作，包括数据查看、数据筛选、数据处理等。

查看数据

我们可以使用head()方法查看DataFrame的前几行数据，方便快速浏览。

print(df.head())

查看列

可以通过列名来访问DataFrame中的列数据，例如查看Name列：

print(df['Name'])

筛选数据

我们可以根据条件来筛选数据，比如筛选出年龄大于等于22岁的学生：

filtered_df = df[df['Age'] >= 22]
print(filtered_df)

添加列

可以通过给列赋值的方式来添加新的列，比如添加一列Grade：

df['Grade'] = ['A', 'B', 'B', 'A']
print(df)

删除列

如果需要删除某一列，可以使用drop()方法：

df.drop('Score', axis=1, inplace=True)
print(df)

修改数据

可以通过索引的方式修改DataFrame中的数据，比如将Bob的年龄修改为22：

df.loc[df['Name'] == 'Bob', 'Age'] = 22
print(df)

数据排序

可以使用sort_values()方法对数据进行排序，例如按照分数降序排列：

sorted_df = df.sort_values(by='Score', ascending=False)
print(sorted_df)

总结

本文介绍了如何使用Python构建DataFrame，包括从列表、字典、列表列表和CSV文件创建DataFrame，以及对DataFrame的基本操作。通过灵活运用这些方法，可以更方便地处理和分析各种数据。

Python构建DataFrame