不可置信!SQL 优化终于干掉了“distinct”
wptr33 2024-11-09 14:59 23 浏览
sql 优化之多表联合查询干掉 “distinct” 去重关键字
在我提交了代码的时候,架构师给我指出我这个sql这样写会有问题。因为在分库分表的时候,是不支持子查询的。
所以需要把多表的子查询的 sql 结构进行优化。
是不是挺恐怖的;(此处为了脱敏,我把相关的 sql 关键词都给打码掉了)
这个 sql 的执行步骤如下: 1、查询出来 d 表中的某个 id 字段包含多个 id 值的所有的数据(因为此表是 1-n 的关系,所以需要去重,仅需要拿到不重复的 id 才可以继续下一个步骤);可以看到此步骤我把查询出来的多个值的结果给生成的了一个子表名为 sss;
2、下一个步骤就是需要进行排序(以时间进行倒序排序,因为要在前台进行按时间进行展示);
3、第 3 步就是把这些结果与 a 表进行合并,查询出来排序后的每个 id 的信息;然后进行分页处理;
其他的可以不必关心,最终要的是去重关键字(DISTINCT),拿小本本记号,一会要考哦。
实践是验证真理的唯一标准
例如有下表:
可以看到name和product_unit列的值都有可能是重复的。
mysql> SELECT t1.id,t1.name,t1.product_unit FROM dd_product_category t1;
+
| id | name | product_unit |
+
| 55 | 饮料 | 瓶 |
| 56 | 饮料 | 箱 |
| 57 | 零食 | 包 |
| 59 | 膨化食品 | 袋 |
| 60 | 方便食品 | 箱 |
| 61 | 自热火锅 | 碗 |
| 62 | 方便面 | 箱 |
| 63 | 矿泉水 | 箱 |
| 64 | 糖果 | |
| 65 | 酒类 | 箱 |
| 66 | 烈酒 | 箱 |
| 67 | 啤酒 | 箱 |
| 68 | 预调酒 | 箱 |
+
13 rows in set (0.13 sec)
mysql>
mysql>
如何我们想只拿到name或者product_unit列的值并且不想要重复的值该怎么办?
1、拿到单个值是好拿的,但是是存在重复的数据的,这些重复的数据我们只保留一个就可以了,那么该怎么做呢?
mysql> SELECT t1.product_unit FROM dd_product_category t1;
+
| product_unit |
+
| 瓶 |
| 箱 |
| 包 |
| 袋 |
| 箱 |
| 碗 |
| 箱 |
| 箱 |
| |
| 箱 |
| 箱 |
| 箱 |
| 箱 |
+
13 rows in set (19.31 sec)
mysql>
2、去除重复列
mysql>
mysql> SELECT DISTINCT t1.product_unit FROM dd_product_category t1;
+
| product_unit |
+
| 瓶 |
| 箱 |
| 包 |
| 袋 |
| 碗 |
| |
+
6 rows in set (0.11 sec)
mysql>
是不是很简单,虽然看着简单,但是如果多表子查询的时候,就会出现问题,例如你想要查询表 a,b,c 三个表的数据,这三个表必然都是有关系的。
a 和 b 是 1-n 的关系。但是你只有 b 表中 id,你需要先查询出来 b 表的数据,然后利用 b 表的数据去查询 a 表的数据,然后再去查询 c 表的数据。
想必肯定是很绕的。
整个过程中你肯定是需要去重的
当整个 sql 写完,基本上跟我写的优化前的 sql 也就差不多了。(多表嵌套,多 sql 嵌套 sql,啦啦啦一大堆)。
优化思路还是有很多的,当时能想到的就是把这个复杂的 sql 拆分成多个简单的 sql 执行,然后使用 Java 后台代码进行处理。(对于不甘于现状的我,想找到一个比这个更友好的解决方案的我,我是不会屈服这个问题的。)
说到这里,先给大家放上一个链接:
- 1、(Mysql5.7 官方手册中提及到的关于优化 distinct 的方法) dev.mysql.com/doc/refman/…
- 2、还有一个优化 group by 的: dev.mysql.com/doc/refman/…
推荐大家阅读。
Mysql5.7 官方手册中提及到的关于优化 distinct 的方法,原文如下:
MySQL 5.7 Reference Manual / … / DISTINCT Optimization
8.2.1.16 DISTINCT Optimization
DISTINCT combined with ORDER BY needs a temporary table in many cases.
distinct 与 order by 结合的许多情况下需要建一个临时表;
Because DISTINCT may use GROUP BY, learn how MySQL works with columns in ORDER BY or HAVING clauses that are not part of the selected columns. See Section 12.20.3, “MySQL Handling of GROUP BY”.
因为distinct可能使用group by,了解MySQL如何处理按order by 列或者具有不属于所选列的子句。见12.20.3节, “MySQL Handling of GROUP BY”.
In most cases, a DISTINCT clause can be considered as a special case of GROUP BY. For example, the following two queries are equivalent:
在大多数情况下,一个不同的子句可以被认为是group by 的特殊情况。例如下面这两个查询是等价的:
SELECT DISTINCT c1, c2, c3 FROM t1
WHERE c1 > const;
SELECT c1, c2, c3 FROM t1
WHERE c1 > const GROUP BY c1, c2, c3;
Due to this equivalence, the optimizations applicable to GROUP BY queries can be also applied to queries with a DISTINCT clause. Thus, for more details on the optimization possibilities for DISTINCT queries, see Section 8.2.1.15, “GROUP BY Optimization”.
由于这种等价性,适用于group by查询的优化,也可以应用于具有不同子句的查询。因此,关于distinct的查询优化的更多细节可以参考Section 8.2.1.15, “GROUP BY Optimization”.
When combining LIMIT row_count with DISTINCT, MySQL stops as soon as it finds row_count unique rows.
当 row_count 与 distinct 一起使用时,MySQL 一旦发现 row_count 是唯一的行,就会停止。
If you do not use columns from all tables named in a query, MySQL stops scanning any unused tables as soon as it finds the first match. In the following case, assuming that t1 is used before t2 (which you can check with EXPLAIN), MySQL stops reading from t2 (for any particular row in t1) when it finds the first row in t2:
如果在查询中不适用来自所有表的列,MySQL 一旦找到第一个匹配项就会停止扫描任何未使用的表。
在下面的例子中,假设 t1 在 t2 之前使用(你可以使用 explanin 来检查),MySQL 在找到 t2 的第一行时停止从 t2 读取(对于 t1 中的任何特定行)。
SELECT DISTINCT t1.a FROM t1, t2 where t1.a=t2.a;
官方的手册中写到的,真是句句扣心呀!!!
总结有以下比较重要的几点:
- 1、distinct 与 group by 几乎等价;
- 2、distinct 的相关优化与 group by 的查询优化方法是等价的;
我们抱着试试看的态度,去做个试验。
就以下列这个效果为最终目的好了:
mysql>
mysql> SELECT DISTINCT t1.product_unit FROM dd_product_category t1;
+
| product_unit |
+
| 瓶 |
| 箱 |
| 包 |
| 袋 |
| 碗 |
| |
+
6 rows in set (0.11 sec)
mysql>
使用 group by 去重:
mysql> select t1.product_unit from dd_product_category t1 group by t1.product_unit;
+
| product_unit |
+
| |
| 包 |
| 瓶 |
| 碗 |
| 箱 |
| 袋 |
+
6 rows in set (19.46 sec)
mysql>
可以看到,最终拿到的数据是一模一样的。
那么我们试验是成功的,distinct的效果和group by的效果是一样的。
那么我们优化distinct就变向的去优化group by了(我优化前的sql并未使用group by所以谈不上优化group by,只能说是把distinct的复杂sql改造成group by 的sql)。
打开我前面提到的这个优化 group by 的官方手册: dev.mysql.com/doc/refman/…
由于原文比较长,这里就不在过多赘述。
现在需要做的就是把 distinct 改造成 group by 的 sql 语法的写法。
怎么样,改造后的 sql,是不是还挺清爽的。
1、我们扔掉了多个嵌套sql;
2、也不用去生成一个sss的临时表了
对于本人而言学到了:
- 1、distinct 与 group by 几乎等价;
- 2、distinct 的相关优化与 group by 的查询优化方法是等价的;
- 3、如果 distinct 的不能让 sql 最优化,那么可以尝试着使用 group by 的方式去改造一下。
作者:TrueDei
链接:https://juejin.cn/post/6909718516606173191
来源:掘金
相关推荐
- Linux高性能服务器设计
-
C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...
- 独立游戏开发者常犯的十大错误
-
...
- 学C了一头雾水该咋办?
-
学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...
- C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?
-
上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...
- C语言实战小游戏:井字棋(三子棋)大战!文内含有源码
-
井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...
- C++语言到底是不是C语言的超集之一
-
C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...
- 在C++中,如何避免出现Bug?
-
C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...
- ESL-通过事件控制FreeSWITCH
-
通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...
- 物理老师教你学C++语言(中篇)
-
一、条件语句与实验判断...
- C语言入门指南
-
当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...
- C++选择结构,让程序自动进行决策
-
什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...
- C++特性使用建议
-
1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...
- C++程序员学习Zig指南(中篇)
-
1.复合数据类型结构体与方法的对比C++类:...
- 研一自学C++啃得动吗?
-
研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...
- C++关键字介绍
-
下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
面试官:git pull是哪两个指令的组合?
-
git 执行pull错误如何撤销 git pull fail
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mysql max (33)
- vba instr (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)