Python删除重复行|极客笔记

Python删除重复行

在处理文本文件时，经常会遇到需要删除重复行的情况。Python作为一种功能强大的编程语言，提供了多种方法来实现这个目标。本文将详细介绍如何使用Python来删除重复行。

方法一：使用集合(set)

最简单的方法是将文件的内容读入一个集合中，集合会自动去重，然后再将集合中的内容写回文件中。下面是示例代码：

def remove_duplicate_lines(input_file, output_file):
    lines = set()

    with open(input_file, 'r') as f:
        for line in f:
            lines.add(line)

    with open(output_file, 'w') as f:
        for line in lines:
            f.write(line)

input_file = 'input.txt'
output_file = 'output.txt'
remove_duplicate_lines(input_file, output_file)

运行以上代码后，output.txt中将不含有重复行的内容。

方法二：使用字典(dict)

另一种方法是使用字典来实现去重。将文件的每一行作为字典的键，值设为任意非空值，这样就可以达到去重的效果。示例代码如下：

def remove_duplicate_lines(input_file, output_file):
    lines = {}

    with open(input_file, 'r') as f:
        for line in f:
            lines[line] = 1

    with open(output_file, 'w') as f:
        for line in lines:
            f.write(line)

input_file = 'input.txt'
output_file = 'output.txt'
remove_duplicate_lines(input_file, output_file)

运行以上代码后，output.txt中将不含有重复行的内容。

方法三：使用pandas库

如果处理的文件比较大，可以考虑使用pandas库来进行操作。示例代码如下：

import pandas as pd

def remove_duplicate_lines(input_file, output_file):
    df = pd.read_csv(input_file, header=None)
    df.drop_duplicates(inplace=True)
    df.to_csv(output_file, header=False, index=False)

input_file = 'input.txt'
output_file = 'output.txt'
remove_duplicate_lines(input_file, output_file)

运行以上代码后，output.txt中将不含有重复行的内容。