Python 打开文件时如何指定缓冲区大小

文件处理是计算机编程领域中无缝数据管理的关键方面。在处理大文件或执行需要高效利用内存的某些操作时，选择缓冲区大小是至关重要的。由于其集成的文件处理功能，强大而灵活的编程语言Python赋予开发人员在打开文件时选择缓冲区大小的自由。本篇详细文章将介绍如何在Python中打开文件时设置缓冲区大小。为了解释这些概念，我们将逐步介绍并提供一些代码的实际示例。

理解Python中的文件缓冲

在深入到代码示例之前，理解Python中文件缓冲的概念是至关重要的。文件缓冲是一种调节如何从文件读取和写入数据的技术。默认情况下，Python使用缓冲I/O从文件读取和写入数据，它以块或片段的方式读取和写入数据，而不是逐个字节地进行。

由于分段或分块读写数据可能效率较低，缓冲通过降低所需的系统调用次数来提高效率。然而，在某些情况下，需要调节用于I/O操作的缓冲区的大小。

使用open()函数指定缓冲区

在Python中打开文件时，使用open()方法和buffering选项是设置缓冲区大小的最简单方法。可以通过一个整数值在buffering参数中指定缓冲区大小。

示例

在这个示例中，我们创建了一个名为read_file_with_custom_buffer的函数，接受两个参数：文件路径和期望的缓冲区大小。使用open()方法，我们以读取模式(‘r’)打开文件，并使用buffering参数来设置缓冲区大小。

file.read()方法将文件的整个内容读取到file_contents变量中。

def read_file_with_custom_buffer(file_path, buffer_size):
   with open(file_path, 'r', buffering=buffer_size) as file:
      file_contents = file.read()
   return file_contents

# Example usage
file_path = 'large_file.txt'
buffer_size = 4096
file_contents = read_file_with_custom_buffer(file_path, buffer_size)
print(file_contents)

输出

对于某个文件，以下是输出结果

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.

缓冲模式

使用缓冲参数定义缓冲区大小时，可以使用不同的值来调节缓冲模式−

buffering=0 − 不使用缓冲。立即读取和写入文件的数据可能会增加系统调用的次数。对于交互式应用程序或处理少量数据，此模式适用。

buffering=1 − 使用行缓冲。由于数据以单独的行读取或写入文件，所以每行处理为一个独立的缓冲区。在处理以行为处理单位的文本文件时，此模式适用。

**buffering >1 ** − 大于1的正整数代表缓冲区的大小（以字节为单位）。文件以给定的缓冲区大小的块进行读取或写入。此模式适用于管理大型文件或内存使用优化。

buffering=-1（默认值） − 操作系统和底层I/O库会自动选择缓冲区大小。

实时数据的行缓冲

在处理实时数据流或依赖基于行的数据处理的应用程序时，行缓冲特别有用。让我们看看如何应用行缓冲−

示例

在这里，我们定义了函数process_real_time_data，该函数以文件路径作为输入。使用open()方法以读取模式（’r’）打开文件，并使用buffering=1设置行缓冲。

下一步是使用for循环迭代文件中的每一行。为了处理数据，我们为每一行执行一个独特的process_line()方法。在这个示例中，我们只是使用strip()函数显示去除任何前导或后继空格的行。

行缓冲确保每行都被单独处理，使得这种方法适用于实时数据流，其中数据以行为基本单位到达。

def process_real_time_data(file_path):
   with open(file_path, 'r', buffering=1) as file:
      for line in file:
         process_line(line)

def process_line(line):
   # Your custom data processing logic here
   print(line.strip())

# Example usage
file_path = 'real_time_data.log'
process_real_time_data(file_path)

输出

对于某个日志文件，以下是输出结果

127.0.0.1 - "" - [01/Feb/2016:19:12:22 +0000] "GET
/s3/SmokeS3/2d9482ead66d4e748ff06ea4a0bb98490000 HTTP/1.1" 200 3145728 "-" "aws-sdk-java/1.7.5
Linux/3.14.0-0.clevos.1-amd64 OpenJDK_64-Bit_Server_VM/25.45-b02/1.8.0_45-internal" 50
127.0.0.1 - - [01/Feb/2016:18:00:00 +0000] "POST /cnc/command/dump-log
HTTP/1.1" 200 - "-" "Apache-HttpAsyncClient/4.0.2 (java 1.5)" - 15
127.0.0.1 - - [02/Feb/2016:18:27:46 +0000] "GET /state HTTP/1.1" 200 - "-"
"curl/7.43.0" - 539

使用自定义缓冲区将数据写入文件

指定缓冲区大小不限于读取文件，当处理大型数据集时，在写入文件时也很有用。让我们来看一个使用自定义缓冲区写入文件的示例 –

示例

在这段代码片段中，我们定义了函数write_large_data_to_file，它接受文件位置、首选缓冲区大小和要写入的数据作为参数。我们使用open()方法和buffering=buffer_size参数以写模式（’w’）打开文件。

使用file.write()函数将数据写入文件。

通过选择缓冲区大小，我们可以改进处理大型数据集的写入过程，从而提高性能和内存效率。

def write_large_data_to_file(file_path, buffer_size, data):
   with open(file_path, 'w', buffering=buffer_size) as file:
      file.write(data)

# Example usage
file_path = 'large_output_file.txt'
buffer_size = 8192
data_to_write = "This is a large amount of data that needs to be written to the file."
write_large_data_to_file(file_path, buffer_size, data_to_write)

缓冲二进制数据

缓冲不仅限于文本数据，也可以应用于二进制数据。在使用二进制文件时，指定缓冲大小尤其有益。让我们看看如何在二进制数据中使用缓冲−

示例

在此示例中，定义了一个名为write_binary_data_to_file的函数，其参数为文件位置、首选缓冲大小和要写入的二进制数据。使用open()方法，我们以二进制写模式(‘wb’)打开文件，指定缓冲大小为buffering=buffer_size。

使用file.write()函数将二进制数据写入文件。请记住，二进制数据前面有字母”b”，表示它是一个字节对象。

在写入大型二进制文件（如图像、音频或视频文件）时，缓冲二进制数据以优化写入操作是至关重要的。

def write_binary_data_to_file(file_path, buffer_size, binary_data):
   with open(file_path, 'wb', buffering=buffer_size) as file:
      file.write(binary_data)

# Example usage
file_path = 'binary_output_file.bin'
buffer_size = 4096
binary_data_to_write = b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0A'
write_binary_data_to_file(file_path, buffer_size, binary_data_to_write)