python提取多个csv文件数据存入mysql数据库|极客笔记

python提取多个csv文件数据存入mysql数据库

在数据处理工作中，我们经常需要处理来自不同来源的数据，有时候这些数据以CSV文件的形式存储在本地。为了方便数据的分析和管理，我们需要将这些CSV文件中的数据导入到数据库中进行存储和操作。在本文中，将详细介绍如何使用Python语言提取多个CSV文件中的数据，并将这些数据存入MySQL数据库。

准备工作

在开始之前，需要安装以下Python库：

pandas：用于数据提取和处理
sqlalchemy：用于与数据库进行交互

同时，需要在本地安装MySQL数据库，并创建一个数据库以存储我们将要导入的数据。

实现步骤

1. 连接到数据库

首先，我们需要连接到MySQL数据库，可以使用sqlalchemy库来实现连接。具体代码如下：

from sqlalchemy import create_engine

# 连接数据库
engine = create_engine('mysql+pymysql://username:password@localhost/database')

其中，username和password分别是你的数据库用户名和密码，database是你创建的用来存储数据的数据库名称。

2. 读取CSV文件

接下来，我们使用pandas库来读取多个CSV文件中的数据。假设我们有两个CSV文件data1.csv和data2.csv，我们可以使用以下代码来读取这些文件：

import pandas as pd

# 读取csv文件
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')

3. 数据清洗

在将数据存入数据库之前，可能需要对数据进行清洗和处理。我们可以根据实际情况对数据进行处理，如去重、缺失值处理等。

# 去除重复行
df1 = df1.drop_duplicates()

# 处理缺失值
df2 = df2.fillna(0)

4. 将数据存入数据库

最后，我们使用to_sql方法将数据存入数据库中。

# 将数据存入数据库
df1.to_sql(name="table1", con=engine, if_exists='replace', index=False)
df2.to_sql(name="table2", con=engine, if_exists='replace', index=False)

在上面的代码中，name参数是数据库中表的名称，con=engine参数用于指定数据库连接，if_exists参数用于指定如果表已存在时的行为。这里我们选择replace，表示如果表存在则替换。index=False表示不将DataFrame的索引写入数据库中。

示例代码及运行结果

下面是完整的示例代码：

from sqlalchemy import create_engine
import pandas as pd

# 连接数据库
engine = create_engine('mysql+pymysql://username:password@localhost/database')

# 读取csv文件
df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')

# 去除重复行
df1 = df1.drop_duplicates()

# 处理缺失值
df2 = df2.fillna(0)

# 将数据存入数据库
df1.to_sql(name="table1", con=engine, if_exists='replace', index=False)
df2.to_sql(name="table2", con=engine, if_exists='replace', index=False)

以上代码展示了如何将两个CSV文件中的数据存入MySQL数据库中。在运行代码之前，需要将用户名、密码、数据库名称以及CSV文件名替换为实际的值。运行代码后，你将看到数据成功存入到数据库中。