百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

什么,LEFT JOIN 会变成 JOIN?

wptr33 2024-11-21 22:05 22 浏览

前言

在日常开发中,对于 LEFT JOIN 和 JOIN 的用法大部分应该都是一样的,如果有两个表 A,B,如果两个表的数据都想要,就使用 JOIN,如果只想要一个表的全部数据,另一个表数据可有可无,就使用 LEFT JOIN。(当然这么描述是不太准确的,但是很符合我的日常业务开发)。

在 MYSQL LEFT JOIN 详解 这篇文章中我们已经知道了,LEFT JOIN 是自己选择驱动表的,而 JOIN 是 MYSQL 优化器选择驱动标的。

那么,当我们写了一条 LEFT JOIN 语句,MYSQL 会将这条语句优化成 JOIN 语句吗?

如果会优化的话,那么什么时候会优化呢?

事实上,这正是我遇到的一个线上问题。我们一起来看一下。

问题描述

在我们线上有这么一条慢 SQL(已处理),执行时间超过 0.5 秒。

select 
    count(distinct order.order_id) 
from order force index(shop_id) 
left join `order_extend`
on `order`.`order_id` = `order_extend`.`order_id` 
where `order`.`create_time` >= "2020-08-01 00:00:00" 
and `order`.`create_time` <= "2020-08-01 23:59:59" 
and `order`.`shop_id` = 328449726569069326 
and `order`.`status` = 1 
and `order_extend`.`shop_id` = 328449726569069326 
and `order_extend`.`status` = 1
复制代码

explain 结果如下:

+----+-------------+--------------+------------+--------+------------------+----------+---------+------------------------+------+-------------+
| id | select_type | table        | partitions | type   | possible_keys    | key      | key_len | ref                    | rows | Extra       |
+----+-------------+--------------+------------+--------+------------------+----------+---------+------------------------+------+-------------+
|  1 | SIMPLE      | order_extend | NULL       | ref    | order_id,shop_id | shop_id  | 8       | const                  | 3892 | Using where |
|  1 | SIMPLE      | order        | NULL       | eq_ref | shop_id          | shop_id  | 16      | example.order.order_id |    1 | Using where |
+----+-------------+--------------+------------+--------+------------------+----------+---------+------------------------+------+-------------+
2 rows in set, 1 warning (0.00 sec)
复制代码

问题分析

通过 explain,再结合我们之前讲的 MYSQL 连接查询算法,驱动表为 order_extend,循环 3892 次,说多也不多,说少也不少,被驱动表数据查询类型为 eq_ref,所以应该不会太慢,那么问题就出现在 3892 次上面了,想办法将这个数字降下来即可。

等等!为什么驱动表是 order_extend?我明明使用的是 LEFT JOIN 啊,按理说驱动表应该是 order 表,为什么会变成了 order_extend 了。难道是 MYSQL 内部优化了?

顺着这个思路,既然驱动表变了,说明这条 SQL 变为 JOIN 语句了。

我们顺着分析 JOIN 语句的方式来分析一下这条语句。(ps:需要对 MYSQL JOIN 内部执行过程有一定的理解,如果不太熟悉,请先移步看这篇文章 → MYSQL 连接查询算法 )

MYSQL 选择 order_extend 当做驱动表,说明在 where 条件下 order_extend 查询的数据更少,MYSQL 会选择一个小的表当做驱动表。

我们来分别适用上述的 where 条件单独执行 select count(*) 语句,查看一下大致每个表都涉及到多少条 SQL 记录。

为了不影响我们的分析,我们使用 explain 语句,这样整个过程就都是估算的结果,模拟一下 MYSQL 分析的过程。

mysql> explain select 
    count(distinct order.order_id) 
from order force index(shop_id) 
where `order`.`create_time` >= "2020-08-01 00:00:00" 
and `order`.`create_time` <= "2020-08-01 23:59:59" 
and `order`.`shop_id` = 328449726569069326 
and `order`.`status` = 1;


+----+-------------+-------+------------+------+--------------------------------+---------+---------+-------+--------+-------------+
| id | select_type | table | partitions | type | possible_keys                  | key     | key_len | ref   | rows   | Extra       |
+----+-------------+-------+------------+------+--------------------------------+---------+---------+-------+--------+-------------+
|  1 | SIMPLE      | order | NULL       | ref  | PRIMARY,shop_id,create_time... | shop_id | 8       | const | 320372 | Using where |
+----+-------------+-------+------------+------+--------------------------------+---------+---------+-------+--------+-------------+
1 row in set, 1 warning (0.00 sec)
复制代码
select 
    count(distinct order_extend.order_id) 
and `order_extend`.`shop_id` = 328449726569069326 
and `order_extend`.`status` = 1

+----+-------------+--------------+------------+------+------------------+---------+---------+-------+------+----------+-------------+
| id | select_type | table        | partitions | type | possible_keys    | key     | key_len | ref   | rows | filtered | Extra       |
+----+-------------+--------------+------------+------+------------------+---------+---------+-------+------+----------+-------------+
|  1 | SIMPLE      | order_extend | NULL       | ref  | order_id,shop_id | shop_id | 8       | const | 3892 |    10.00 | Using where |
+----+-------------+--------------+------------+------+------------------+---------+---------+-------+------+----------+-------------+
1 row in set, 1 warning (0.00 sec)
复制代码

可以看到,在上述 where 条件下,order_extend 表只会查询 3892 条数据,而 order 表会查询 320372 条数据,所以 order_extend 表当驱动表是完全没有问题的。

那么我们再来看看为什么 order 表会扫描这么多数据呢?在 2020-08-01 这一天可能也没有这么多数据啊。那么这个时候我们应该会很容易的想到,是强制走索引的问题,因为在上述查询语句中,我们强制走了 shop_id 索引,这个索引可能不是最优索引,我们把 force index(shop_id) 去掉再试试看

mysql> explain select 
    count(distinct order.order_id) 
where `order`.`create_time` >= "2020-08-01 00:00:00" 
and `order`.`create_time` <= "2020-08-01 23:59:59" 
and `order`.`shop_id` = 328449726569069326 
and `order`.`status` = 1;


+----+-------------+-------+------------+------+---------------+-------------+---------+-------+-------+----------+--------------------------+
| id | select_type | table | partitions | type | possible_keys | key         | key_len | ref   | rows  | filtered | Extra                    |
+----+-------------+-------+------------+------+---------------+-------------+---------+-------+-------+----------+--------------------------+
|  1 | SIMPLE      | order | NULL       | ref  | create_time   | create_time | 8       | const | <3892 |    10.00 | Using where; Using index |
+----+-------------+-------+------------+------+---------------+-------------+---------+-------+-------+----------+--------------------------+
1 row in set, 1 warning (0.00 sec)
复制代码

可以看到,如果不强制走 shop_id 索引的话,走 create_time 索引的话,扫描的行数会更少,假设说 100 行,只会循环 100 次,扫描 100 x 3892 行数据,而之前的总共要循环 3892 次,扫描 3892 x 300000 行数据。

问题结论

所以最终的这条慢 SQL 的原因确定了,是因为我们强制走 shop_id 索引,导致 MYSQL 扫描的行数更多了,我们只需要去掉强制走索引即可,大多数时间 MYSQL 都会选择正确的索引,所以强制使用索引的时候一定要小心谨慎。

问题延伸

SQL 慢的问题我们已经解决了,我们再来回顾一下文章开头的问题:LEFT JOIN 会被优化为 JOIN 吗?

答案是会的。那么什么时候会出现这种情况呢?

我们再来回顾一下 MYSQL LEFT JOIN 详解 文章中的内容。

为了方便阅读,我们将部分内容粘贴出来。

mysql> select * from goods left join goods_category on goods.category_id = goods_category.category_id;
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        1 | 男鞋1      |           1 |           1 | 鞋            |
|        2 | 男鞋2      |           1 |           1 | 鞋            |
|        3 | 男鞋3      |           3 |           3 | 羽绒服        |
|        4 | T恤1       |           2 |           2 | T恤           |
|        5 | T恤2       |           2 |           2 | T恤           |
+----------+------------+-------------+-------------+---------------+
5 rows in set (0.00 sec)

mysql> select * from goods left join goods_category on goods.category_id = goods_category.category_id;
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        1 | 男鞋1      |           1 |           1 | 鞋            |
|        2 | 男鞋2      |           1 |           1 | 鞋            |
|        3 | 男鞋3      |           4 |        NULL | NULL          |
|        4 | T恤1       |           2 |           2 | T恤           |
|        5 | T恤2       |           2 |           2 | T恤           |
+----------+------------+-------------+-------------+---------------+
5 rows in set (0.00 sec)

mysql> select * from goods g left join goods_category c on (g.category_id = c.category_id and g.goods_name = 'T恤1');
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        1 | 男鞋1      |           1 |        NULL | NULL          |
|        2 | 男鞋2      |           1 |        NULL | NULL          |
|        3 | 男鞋3      |           4 |        NULL | NULL          |
|        4 | T恤1       |           2 |           2 | T恤           |
|        5 | T恤2       |           2 |        NULL | NULL          |
+----------+------------+-------------+-------------+---------------+
5 rows in set (0.00 sec)

mysql> select * from goods g left join goods_category c on (g.category_id = c.category_id and c.category_name = 'T恤');
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        1 | 男鞋1      |           1 |        NULL | NULL          |
|        2 | 男鞋2      |           1 |        NULL | NULL          |
|        3 | 男鞋3      |           4 |        NULL | NULL          |
|        4 | T恤1       |           2 |           2 | T恤           |
|        5 | T恤2       |           2 |           2 | T恤           |
+----------+------------+-------------+-------------+---------------+
5 rows in set (0.00 sec)

mysql> select * from goods g left join goods_category c on (g.category_id = c.category_id) where c.category_name = '鞋';
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        1 | 男鞋1      |           1 |           1 | 鞋            |
|        2 | 男鞋2      |           1 |           1 | 鞋            |
+----------+------------+-------------+-------------+---------------+
2 rows in set (0.00 sec)

mysql> select * from goods g left join goods_category c on (g.category_id = c.category_id) where g.goods_name = 'T恤1';
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        4 | T恤1       |           2 |           2 | T恤           |
+----------+------------+-------------+-------------+---------------+
1 row in set (0.00 sec)

mysql> select * from goods g left join goods_category c on (g.category_id = c.category_id and g.goods_name = 'T恤2') where g.goods_name = 'T恤1';
+----------+------------+-------------+-------------+---------------+
| goods_id | goods_name | category_id | category_id | category_name |
+----------+------------+-------------+-------------+---------------+
|        4 | T恤1       |           2 |        NULL | NULL          |
+----------+------------+-------------+-------------+---------------+
1 row in set (0.00 sec)
复制代码

我们可以看到,当 where 条件中有被驱动表的条件时,查询结果是和 JOIN 的结果是一致的,无 NULL 值的出现。

所以,我们可以想到,LEFT JOIN 优化为 JOIN 的条件为:where 条件中有被驱动表的非空条件时,LEFT JOIN 等价于 JOIN。

这不难理解,LEFT JOIN 会返回驱动表所有数据,当有被驱动表的 where 条件时,会过滤掉 NULL 的值,此时和 JOIN 的结果一致了,那么 MYSQL 会选择将 LEFT JOIN 优化为 JOIN,这样就可以自己选择驱动表了。

实例测试

我们再来编写一个测试用例来验证一下我们的结论。

CREATE TABLE `A` (
  `id` int(11) auto_increment,
  `a` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `a` (`a`)
) ENGINE=InnoDB;

delimiter ;;
create procedure idata()
begin
  declare i int;
  set i=1;
  while(i<=100)do
    insert into A (`a`) values(i);
    set i=i+1;
  end while;
end;;
delimiter ;
call idata();

CREATE TABLE `B` (
  `id` int(11) auto_increment,
  `b` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `b` (`b`)
) ENGINE=InnoDB;

delimiter ;;
create procedure idata()
begin
  declare i int;
  set i=1;
  while(i<=100)do
    insert into B (`b`) values(i);
    set i=i+1;
  end while;
end;;
delimiter ;
call idata();
复制代码

我们创建了两张一模一样的表,每个表中有 100 条数据,然后我们执行一下 LEFT JOIN 语句。

mysql> explain select * from A left join B on A.id = B.id where A.a <= 100;
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
| id | select_type | table | partitions | type   | possible_keys | key     | key_len | ref           | rows | filtered | Extra                    |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
|  1 | SIMPLE      | A     | NULL       | index  | a             | a       | 5       | NULL          |  100 |   100.00 | Using where; Using index |
|  1 | SIMPLE      | B     | NULL       | eq_ref | PRIMARY       | PRIMARY | 4       | example2.A.id |    1 |   100.00 | NULL                     |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
2 rows in set, 1 warning (0.00 sec)
复制代码
mysql> explain select * from A left join B on A.id = B.id where A.a <= 100 and B.b <= 50;
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
| id | select_type | table | partitions | type   | possible_keys | key     | key_len | ref           | rows | filtered | Extra                    |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
|  1 | SIMPLE      | B     | NULL       | range  | PRIMARY,b     | b       | 5       | NULL          |   50 |   100.00 | Using where; Using index |
|  1 | SIMPLE      | A     | NULL       | eq_ref | PRIMARY,a     | PRIMARY | 4       | example2.B.id |    1 |   100.00 | Using where              |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
2 rows in set, 1 warning (0.00 sec)
复制代码
mysql> explain select * from A left join B on A.id = B.id where A.a <= 100 and B.b <= 100;
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
| id | select_type | table | partitions | type   | possible_keys | key     | key_len | ref           | rows | filtered | Extra                    |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
|  1 | SIMPLE      | A     | NULL       | index  | PRIMARY,a     | a       | 5       | NULL          |  100 |   100.00 | Using where; Using index |
|  1 | SIMPLE      | B     | NULL       | eq_ref | PRIMARY,b     | PRIMARY | 4       | example2.A.id |    1 |   100.00 | Using where              |
+----+-------------+-------+------------+--------+---------------+---------+---------+---------------+------+----------+--------------------------+
2 rows in set, 1 warning (0.00 sec)
复制代码

从上面看,给 B 表增加了 where 条件之后,如果 B 表扫描的行数更少,那么是有可能换驱动表的,这也说明了,LEFT JOIN 语句被优化成了 JOIN 语句。

总结

上面我们分析了一条慢 SQL 的问题,分析的过程涉及到了很多知识点,希望大家可以认真研究一下。

同时我们得出了一条结论:当有被驱动表的非空 where 条件时,MYSQL 会将 LEFT JOIN 语句优化为 JOIN 语句

相关推荐

python数据容器之列表、元组、字符串

数据容器分为5类,分别是:列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)list#字面量[元素1,元素2,元素3,……]...

深入理解 PYTHON 虚拟机:令人拍案叫绝的字节码设计

深入理解PYTHON虚拟机:令人拍案叫绝的字节码设计在本篇文章当中主要给大家介绍cpython虚拟机对于字节码的设计以及在调试过程当中一个比较重要的字段co_lnotab的设计原理!PYT...

Python快速学习第一天!

第一天:Python是一种解释型的、面向对象的、带有动态语义的高级程序设计语言一、运行Python:1、在交互式环境下,直接输入Python进入Python编程环境[root@tanggao/]#...

Java 程序员的第一套Python代码

选择的Web组件是Python里面的Django,这不一定是一个最佳的框架或者最快的框架,当时他应该算是一个最成熟的框架。...

Python 中 必须掌握的 20 个核心函数及其含义,不允许你不会

以下是Python中必须掌握的20个核心函数及其含义...

Python代码:按和值奇偶比对号码进行组合

Python代码:按和值奇偶比对号码进行组合不少朋友在选定号码以后,会按照一定的和值来组号,比如大乐透常见和值有626372737481108116等我们不用固定在一个数上,我们可以给定...

30天学会Python编程:16. Python常用标准库使用教程

16.1collections模块16.1.1高级数据结构16.1.2示例...

Python强大的内置模块collections

1.模块说明collections是Python的一个内置模块,所谓内置模块的意思是指Python内部封装好的模块,无需安装即可直接使用。...

Python自动化办公应用学习笔记31—全局变量和局部变量

一个Python程序中的变量包括两类:全局变量和局部变量。一、全局变量·...

精通Python可视化爬虫:Selenium实战全攻略

在数据驱动的时代,爬虫技术成为获取信息的强大武器。而Python作为编程界的“瑞士军刀”,搭配Selenium库,更是让我们在动态网页抓取领域如鱼得水。本文将带你深入探索PythonSelenium...

Python中的数据类型操作

...

Python教程(二十五):装饰器–函数的高级用法

今天您将学习什么...

玩转Python列表/字典:增删改查与高效遍历技巧

为什么列表和字典是Python的灵魂?你是否遇到过这样的场景?想存储学生成绩,用列表却发现查找某个学生的分数像大海捞针?用字典存储购物车商品,却不知道如何高效批量修改价格?遍历数据时,传统循环写得...

Python列表操作

Python添加列表4分钟阅读在Python操作列表有各种方法。例如–简单地将一个列表的元素附加到...

充分利用Python多进程提高并发

在计算机编程中,我们经常需要同时执行多个任务。然而,传统的单线程方式无法充分利用计算机的多核处理器,导致程序的执行效率低下。Python中的多进程编程技术可以帮助我们解决这个问题,通过同时运行多个进程...