如何使用Python按给定大小截断文件？

在日常工作中，经常会遇到处理大型文件的情况。有时候需要将大型文件截断成若干个小文件，以方便处理或传输。本文将介绍如何使用Python按给定大小截断文件的方法。

阅读更多：Python 教程

方案设计

为了将大型文件按给定大小截断成若干个小文件，我们可以通过以下步骤实现：

读取大型文件，并生成若干个小文件。每个小文件的大小都不超过指定大小。
将大型文件按指定大小进行分割，并将每个分割后的子文件保存至不同的小文件中。分割后得到的文件大小都不超过指定大小。

本文将分别介绍上述两种方法的实现。

方法一：生成若干个小文件

这种方法适用于希望将大型文件拆分成若干个小文件的情况。比如，需要将一个1GB的日志文件拆分成10个100MB的小文件。具体实现步骤如下：

步骤一：确定小文件个数和大小

在拆分文件之前，我们需要确定拆分后的小文件个数和大小。可以通过计算大文件的大小以及每个小文件的最大允许大小来求得。具体代码如下（Python）：

import os

# 按照指定大小切割文件
def split_file(file_path, size):
    # 获取文件大小
    file_size = os.path.getsize(file_path)
    # 计算拆分后的小文件个数
    file_num = (file_size + size - 1) // size
    # 返回小文件个数和大小
    return file_num, size

# 测试代码
file_num, file_size = split_file('data.log', 100 * 1024 * 1024)
print('拆分成{}个小文件，每个小文件大小为{}字节。'.format(file_num, file_size))

上述代码中，os.path.getsize(file_path)用于获取文件大小，//表示整除，print()函数用于输出拆分后的小文件个数和大小。

步骤二：拆分文件并保存至小文件

有了小文件个数和大小之后，我们就可以开始拆分文件了。具体方法是按照指定大小，依次读取大文件的内容，并将每次读取的内容保存至不同的小文件中。代码如下（Python）：

import os

# 拆分文件并保存至小文件
def split_file(file_path, size):
    # 获取文件大小和要拆分的小文件个数
    file_size = os.path.getsize(file_path)
    file_num = (file_size + size - 1) // size
    # 生成若干个小文件
    with open(file_path, 'rb') as f:
        for i in range(file_num):
            small_file_path = '{}.{}'.format(file_path, i)
            with open(small_file_path, 'wb') as fw:
                content = f.read(size)
                fw.write(content)

# 测试代码
split_file('data.log', 100 * 1024 * 1024)

上述代码中，我们通过with open(file_path, 'rb') as f:打开大文件，并在循环中读取指定大小的内容。然后，我们将每次读取的内容保存至小文件中，并命名为'{}.{}'.format(file_path, i)。这里的{}.{}'表示格式化字符串，i表示循环中的当前次数。

方法二：分割大文件为若干个小文件

该方法适用于需要将大文件按指定大小进行分割的情况。比如，需要将一个2GB的视频文件分割成多个1GB的视频文件。具体实现步骤如下：

步骤一：计算分割点位置

在分割大文件前，我们需要算出分割点的位置。分割点的位置就是每个子文件的结尾位置。具体代码如下（Python）：

# 计算分割点位置
def get_split_points(file_size, block_size):
    # 计算分割个数
    split_num = (file_size + block_size - 1) // block_size
    # 计算分割点位置
    split_points = [i * block_size for i in range(1, split_num)]
    # 返回分割点列表
    return split_points

上述代码中，split_points就是分割点的位置列表。range(1, split_num)表示从1开始遍历到split_num - 1，即忽略文件开头，只算文件结尾位置。

步骤二：分割大文件

有了分割点位置列表后，我们就可以开始分割大文件了。具体方法是读取大文件的内容，并将每次读取的内容保存至不同的小文件中。代码如下（Python）：

# 分割大文件到指定位置
def split_file(file_path, block_size, split_points):
    # 读取大文件
    with open(file_path, 'rb') as f:
        # 分割大文件
        for i, p in enumerate(split_points):
            # 读取内容并保存到小文件
            small_file_path = '{}.{}'.format(file_path, i)
            with open(small_file_path, 'wb') as fw:
                content = f.read(p - f.tell())
                fw.write(content)
        # 读取剩余内容并保存到小文件
        small_file_path = '{}.{}'.format(file_path, i + 1)
        with open(small_file_path, 'wb') as fw:
            content = f.read()
            fw.write(content)

# 测试代码
file_size = os.path.getsize('video.mp4')
block_size = 1024 * 1024 * 1024  # 按1GB分割
split_points = get_split_points(file_size, block_size)
split_file('video.mp4', block_size, split_points)

上述代码中，我们通过with open(file_path, 'rb') as f:打开大文件，并在循环中读取分割点位置之前的内容。然后，我们将每次读取的内容保存至小文件中，并命名为'{}.{}'.format(file_path, i)。最后，我们读取剩余的文件内容，并将其保存至最后一个小文件中。