SQL查询重复数据只保留一条|极客笔记

SQL查询重复数据只保留一条

1. 引言

在实际的数据处理过程中，经常会遇到需要查询并删除重复数据的情况。重复数据不仅占用存储空间，还可能引起数据分析结果的误差，所以保留一条唯一的数据是很有必要的。本篇文章将介绍如何使用SQL语句查询重复的数据，并只保留其中一条记录。

2. 准备工作

为了演示本文提供的示例代码，我们首先需要准备好一个数据库。这里我们使用MySQL数据库，你可以自行安装并创建一个数据库，然后创建一张测试表格。下面是一个示例的SQL语句，可以在MySQL的命令行工具或者其他数据库管理工具中执行：

CREATE DATABASE testDB;

USE testDB;

CREATE TABLE orders (
    id INT PRIMARY KEY AUTO_INCREMENT,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10, 2)
);

INSERT INTO orders (customer_id, order_date, total_amount) VALUES
(1, '2021-01-01', 100.00),
(2, '2021-01-02', 200.00),
(3, '2021-01-03', 300.00),
(1, '2021-01-04', 400.00),
(2, '2021-01-05', 500.00),
(4, '2021-01-06', 600.00),
(1, '2021-01-07', 700.00),
(2, '2021-01-08', 800.00),
(3, '2021-01-09', 900.00);

上述代码创建了一个名为testDB的数据库，并创建了一个名为orders的表格，表格中包含四列：id、customer_id、order_date和total_amount。然后，我们将一些示例数据插入到表格中。

3. 查询重复数据

现在让我们来编写SQL查询语句，以便查询出重复的数据。我们可以利用GROUP BY和COUNT函数来实现这一目的。具体查询语句如下：

SELECT customer_id, order_date, COUNT(*) AS duplicate_count
FROM orders
GROUP BY customer_id, order_date
HAVING COUNT(*) > 1;

上述查询语句将返回字段customer_id、order_date和duplicate_count。其中，customer_id和order_date是重复的数据，而duplicate_count表示这些重复数据出现的次数。FROM子句指定了需要查询的表格为orders，GROUP BY子句用于按照customer_id和order_date进行分组，HAVING子句用于筛选出出现次数大于1的重复数据。

假设我们执行上述查询语句后，可以得到以下的结果：

customer_id	order_date	duplicate_count
1	2021-01-07	2
2	2021-01-08	2

从上面的查询结果可以看出，customer_id为1和2的客户有重复的订单日期。

4. 保留一条唯一记录

接下来，我们需要编写SQL语句来删除重复的数据，只保留其中一条记录。我们可以使用子查询和DELETE语句来实现这一目的。以下是一个示例的删除重复数据的SQL语句：

DELETE FROM orders
WHERE id NOT IN (
    SELECT id
    FROM (
        SELECT MIN(id) AS id
        FROM orders
        GROUP BY customer_id, order_date
    ) AS temp
);

上述SQL语句中，内层子查询SELECT MIN(id) AS id ...将选择每组重复数据中最小的id值，并返回一个名为temp的临时表格。然后，外层的DELETE语句将删除那些id不在temp表格中的记录。

假设我们执行以上的SQL语句后，再次查询orders表格，可以得到以下结果：