如何只选择一次表中重复的值？

在数据分析和处理的过程中，经常会面临需要筛选出表中重复值的情况。但有的时候，我们只需要选取重复值中的一次出现。本文将介绍如何利用Python，实现只选择一次表中重复的值。

阅读更多：MySQL 教程

1. Pandas

对于表格数据的处理，我们往往会选择Pandas库。在Pandas中，我们可以使用drop_duplicates()方法实现只选择一次表中重复的值。

import pandas as pd

# 创建数据表
df = pd.DataFrame({
    "name": ["Alice", "Bob", "Charlie", "Alice", "David"],
    "age": [25, 30, 35, 25, 40],
    "gender": ["F", "M", "M", "F", "M"],
})

# 选择一次重复值
df.drop_duplicates()

上述代码中，我们使用pd.DataFrame创建了一个包含重复值的数据表。然后，在调用drop_duplicates()方法时，Pandas会选择表中的第一个重复值并将其保留，删除其他重复项，最终返回一个不含重复值的新表。

如果只想选择一次某一列中的重复值，我们可以指定列名，将相同列名的值视为重复值进行处理。

# 选择一次name列的重复值
df.drop_duplicates(subset="name")

在上述代码中，我们指定了subset="name"，表示根据name这一列的值进行重复值的判断。

2. SQL

另外一种思路是使用SQL语言来筛选重复值。我们可以使用SELECT语句中的DISTINCT和GROUP BY关键字，排除表中的重复值。

SELECT DISTINCT name, age, gender
FROM table
GROUP BY name

以上SQL语句会选择表中所有的行，但只会返回第一次出现的name值。

3. Python原生代码

我们也可以使用Python原生代码，实现只选择一次表中重复的值。下面是一段示例代码：

# 创建数据表
data = [
    ["Alice", 25, "F"],
    ["Bob", 30, "M"],
    ["Charlie", 35, "M"],
    ["Alice", 25, "F"],
    ["David", 40, "M"]
]

# 选择一次重复值
def select_unique(data):
    # 记录已选过的name
    unique_names = set()
    # 新表格
    new_data = []
    for row in data:
        name = row[0]
        if name not in unique_names:
            unique_names.add(name)
            new_data.append(row)
    return new_data

select_unique(data)

在这段代码中，我们通过遍历数据表中的每一行，记录已选过的name值，并将第一次出现的name值的行添加到一个新的表中。