百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

巧用MySQL窗口函数删除重复数据(mysql怎么删除重复数据)

wptr33 2025-04-07 20:06 7 浏览

MySQL 去重删除:如何删除重复数据并保留最新记录

引言

在数据库的日常维护中或者在平时的开发过程中,由于操作失误或设计缺陷,可能会导致数据表中出现重复记录。如果这些数据没有主键约束或唯一索引,数据库不会自动防止重复数据的插入。这种情况不仅影响数据的准确性,还可能影响查询性能。

本文将介绍一种高效的方法来删除 MySQL 表中的重复数据,并保留每组数据中 updated_at 最新的那一条记录。我们以 user_life_targets 这张表为例,详细讲解如何使用 SQL 解决这个问题。

问题描述

假设有如下表 user_life_targets,其结构如下:

CREATE TABLE `user_life_targets` (
  `id` bigint NOT NULL,
  `user_id` bigint NOT NULL DEFAULT '0',
  `life_id` bigint NOT NULL DEFAULT '0',
  `task_id` bigint NOT NULL DEFAULT '0',
  `updated_at` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `idx_u_l_t` (`user_id`,`life_id`,`task_id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

由于某些原因,该表中可能出现了重复的 user_id, life_id, task_id 组合的数据,我们需要删除这些重复数据,并且 保留 updated_at 最新的那条记录

解决方案

1. 使用 ROW_NUMBER() 窗口函数进行去重

MySQL 8.0 及以上版本支持 ROW_NUMBER() 窗口函数,我们可以利用它为重复数据编号,并删除 updated_at 不是最新的记录。

SQL 实现:

WITH ranked_targets AS (
    SELECT 
        id,
        user_id,
        life_id,
        task_id,
        updated_at,
        ROW_NUMBER() OVER (PARTITION BY user_id, life_id, task_id ORDER BY updated_at DESC) AS rn
    FROM `user_life_targets`
)
DELETE FROM `user_life_targets`
WHERE id IN (
    SELECT id FROM ranked_targets WHERE rn > 1
);

2. 解析 SQL 逻辑

步骤解析

  1. 创建临时数据集 ranked_targets
  2. ROW_NUMBER() OVER (PARTITION BY user_id, life_id, task_id ORDER BY updated_at DESC)
  3. 这个函数会按照 (user_id, life_id, task_id) 进行分组,并且按照 updated_at 降序排序。
  4. ROW_NUMBER() 给每组数据分配唯一的编号,最新的数据编号为 1。
  5. 删除重复数据
  6. 通过 DELETE 语句,删除 ranked_targets 中 rn > 1 的数据,只保留 rn = 1 的记录(即 updated_at 最新的记录)。

适用于 MySQL 5.7 及以下版本的方法

如果你的 MySQL 版本不支持 WITH 语法(即 MySQL 8.0 以下版本),可以使用 DELETE + 子查询的方式删除数据:

DELETE FROM user_life_targets 
WHERE id NOT IN (
    SELECT id FROM (
        SELECT id FROM user_life_targets t1
        WHERE updated_at = (
            SELECT MAX(updated_at) 
            FROM user_life_targets t2
            WHERE t1.user_id = t2.user_id AND t1.life_id = t2.life_id AND t1.task_id = t2.task_id
        )
    ) AS latest_records
);

解释

  • 通过子查询 SELECT MAX(updated_at) 找到相同 (user_id, life_id, task_id) 组合中最新的 updated_at 记录。
  • 外层 DELETE 语句删除不在最新记录列表中的数据。
  • 由于 MySQL 5.7 及以下不允许在 DELETE 语句中直接使用 JOIN,因此使用子查询方式删除。

性能优化建议

  1. 创建合适的索引
  2. 确保 (user_id, life_id, task_id, updated_at) 上有索引,提高查询效率。
  3. 例如: CREATE INDEX idx_user_life_task ON user_life_targets(user_id, life_id, task_id, updated_at);
  4. 避免 IN 过大
  5. DELETE FROM ... WHERE id NOT IN (...) 在大数据量下可能会较慢。
  6. 如果数据量特别大,可以考虑使用临时表存储要保留的 id,然后使用 DELETE JOIN 方式删除。
  7. 备份数据
  8. 在执行 DELETE 之前,建议先进行数据备份,防止误删。
  9. 备份方式: CREATE TABLE backup_user_life_targets AS SELECT * FROM user_life_targets;

结论

本篇文章介绍了如何在 MySQL 中删除重复数据,并保留 updated_at 最新的一条记录。

方法总结:

  • MySQL 8.0 及以上 推荐使用 ROW_NUMBER() 窗口函数。
  • MySQL 5.7 及以下 版本可以使用 DELETE + 子查询方式。
  • 在执行 DELETE 之前,建议先进行数据备份。

希望本篇文章能帮助你在实际项目中高效管理数据库数据,避免数据冗余导致的问题!

相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...