百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

巧用MySQL窗口函数删除重复数据(mysql怎么删除重复数据)

wptr33 2025-04-07 20:06 11 浏览

MySQL 去重删除:如何删除重复数据并保留最新记录

引言

在数据库的日常维护中或者在平时的开发过程中,由于操作失误或设计缺陷,可能会导致数据表中出现重复记录。如果这些数据没有主键约束或唯一索引,数据库不会自动防止重复数据的插入。这种情况不仅影响数据的准确性,还可能影响查询性能。

本文将介绍一种高效的方法来删除 MySQL 表中的重复数据,并保留每组数据中 updated_at 最新的那一条记录。我们以 user_life_targets 这张表为例,详细讲解如何使用 SQL 解决这个问题。

问题描述

假设有如下表 user_life_targets,其结构如下:

CREATE TABLE `user_life_targets` (
  `id` bigint NOT NULL,
  `user_id` bigint NOT NULL DEFAULT '0',
  `life_id` bigint NOT NULL DEFAULT '0',
  `task_id` bigint NOT NULL DEFAULT '0',
  `updated_at` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `idx_u_l_t` (`user_id`,`life_id`,`task_id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

由于某些原因,该表中可能出现了重复的 user_id, life_id, task_id 组合的数据,我们需要删除这些重复数据,并且 保留 updated_at 最新的那条记录

解决方案

1. 使用 ROW_NUMBER() 窗口函数进行去重

MySQL 8.0 及以上版本支持 ROW_NUMBER() 窗口函数,我们可以利用它为重复数据编号,并删除 updated_at 不是最新的记录。

SQL 实现:

WITH ranked_targets AS (
    SELECT 
        id,
        user_id,
        life_id,
        task_id,
        updated_at,
        ROW_NUMBER() OVER (PARTITION BY user_id, life_id, task_id ORDER BY updated_at DESC) AS rn
    FROM `user_life_targets`
)
DELETE FROM `user_life_targets`
WHERE id IN (
    SELECT id FROM ranked_targets WHERE rn > 1
);

2. 解析 SQL 逻辑

步骤解析

  1. 创建临时数据集 ranked_targets
  2. ROW_NUMBER() OVER (PARTITION BY user_id, life_id, task_id ORDER BY updated_at DESC)
  3. 这个函数会按照 (user_id, life_id, task_id) 进行分组,并且按照 updated_at 降序排序。
  4. ROW_NUMBER() 给每组数据分配唯一的编号,最新的数据编号为 1。
  5. 删除重复数据
  6. 通过 DELETE 语句,删除 ranked_targets 中 rn > 1 的数据,只保留 rn = 1 的记录(即 updated_at 最新的记录)。

适用于 MySQL 5.7 及以下版本的方法

如果你的 MySQL 版本不支持 WITH 语法(即 MySQL 8.0 以下版本),可以使用 DELETE + 子查询的方式删除数据:

DELETE FROM user_life_targets 
WHERE id NOT IN (
    SELECT id FROM (
        SELECT id FROM user_life_targets t1
        WHERE updated_at = (
            SELECT MAX(updated_at) 
            FROM user_life_targets t2
            WHERE t1.user_id = t2.user_id AND t1.life_id = t2.life_id AND t1.task_id = t2.task_id
        )
    ) AS latest_records
);

解释

  • 通过子查询 SELECT MAX(updated_at) 找到相同 (user_id, life_id, task_id) 组合中最新的 updated_at 记录。
  • 外层 DELETE 语句删除不在最新记录列表中的数据。
  • 由于 MySQL 5.7 及以下不允许在 DELETE 语句中直接使用 JOIN,因此使用子查询方式删除。

性能优化建议

  1. 创建合适的索引
  2. 确保 (user_id, life_id, task_id, updated_at) 上有索引,提高查询效率。
  3. 例如: CREATE INDEX idx_user_life_task ON user_life_targets(user_id, life_id, task_id, updated_at);
  4. 避免 IN 过大
  5. DELETE FROM ... WHERE id NOT IN (...) 在大数据量下可能会较慢。
  6. 如果数据量特别大,可以考虑使用临时表存储要保留的 id,然后使用 DELETE JOIN 方式删除。
  7. 备份数据
  8. 在执行 DELETE 之前,建议先进行数据备份,防止误删。
  9. 备份方式: CREATE TABLE backup_user_life_targets AS SELECT * FROM user_life_targets;

结论

本篇文章介绍了如何在 MySQL 中删除重复数据,并保留 updated_at 最新的一条记录。

方法总结:

  • MySQL 8.0 及以上 推荐使用 ROW_NUMBER() 窗口函数。
  • MySQL 5.7 及以下 版本可以使用 DELETE + 子查询方式。
  • 在执行 DELETE 之前,建议先进行数据备份。

希望本篇文章能帮助你在实际项目中高效管理数据库数据,避免数据冗余导致的问题!

相关推荐

Python自动化脚本应用与示例(python办公自动化脚本)

Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作...

Python文件操作常用库高级应用教程

本文是在前面《Python文件操作常用库使用教程》的基础上,进一步学习Python文件操作库的高级应用。一、高级文件系统监控1.1watchdog库-实时文件系统监控安装与基本使用:...

Python办公自动化系列篇之六:文件系统与操作系统任务

作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...

14《Python 办公自动化教程》os 模块操作文件与文件夹

在日常工作中,我们经常会和文件、文件夹打交道,比如将服务器上指定目录下文件进行归档,或将爬虫爬取的数据根据时间创建对应的文件夹/文件,如果这些还依靠手动来进行操作,无疑是费时费力的,这时候Pyt...

python中os模块详解(python os.path模块)

os模块是Python标准库中的一个模块,它提供了与操作系统交互的方法。使用os模块可以方便地执行许多常见的系统任务,如文件和目录操作、进程管理、环境变量管理等。下面是os模块中一些常用的函数和方法:...

21-Python-文件操作(python文件的操作步骤)

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件...

轻松玩转Python文件操作:移动、删除

哈喽,大家好,我是木头左!Python文件操作基础在处理计算机文件时,经常需要执行如移动和删除等基本操作。Python提供了一些内置的库来帮助完成这些任务,其中最常用的就是os模块和shutil模块。...

Python 初学者练习:删除文件和文件夹

在本教程中,你将学习如何在Python中删除文件和文件夹。使用os.remove()函数删除文件...

引人遐想,用 Python 获取你想要的“某个人”摄像头照片

仅用来学习,希望给你们有提供到学习上的作用。1.安装库需要安装python3.5以上版本,在官网下载即可。然后安装库opencv-python,安装方式为打开终端输入命令行。...

Python如何使用临时文件和目录(python目录下文件)

在某些项目中,有时候会有大量的临时数据,比如各种日志,这时候我们要做数据分析,并把最后的结果储存起来,这些大量的临时数据如果常驻内存,将消耗大量内存资源,我们可以使用临时文件,存储这些临时数据。使用标...

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...

Python 开发工程师必会的 5 个系统命令操作库

当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...

Python常用文件操作库使用详解(python文件操作选项)

Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能...

11. 文件与IO操作(文件io和网络io)

本章深入探讨Go语言文件处理与IO操作的核心技术,结合高性能实践与安全规范,提供企业级解决方案。11.1文件读写11.1.1基础操作...

Python os模块的20个应用实例(python中 import os模块用法)

在Python中,...