百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

互联网面试-MySQL 中的 distinct 和 group by 哪个效率更高?

wptr33 2024-11-09 15:00 28 浏览

在MySQL中我们最常用的去重方式有两种,分别是使用distinct,或者是使用group by进行去重操作,下面我们就来介绍一下这两者之间的区别与联系。

distinct的使用

单列去重

在MySQL中通常使用如下的语法来通过distinct进行单列去重。

SELECT DISTINCT columns FROM table_name WHERE where_conditions;

DISTINCT关键字主要是用来返回不同的值的,也就是说对于相同的值只会返回一个,并且作用于主语句所有列。如果在这个列中具有null的值,并且还对该列使用了distinct语句,那么MySQL只会保留一个null的值。

多列去重

distinct 对于多列的去重操作是根据指定的去重列的信息来进行操作,也就是说只有当所有的参与去重的列的值都相同的时候,才会认为是相同的信息,否则就是不一样的数据。

group by 去重

使用group by 去重语法如下。属于是对单列数据进行去重操作。

SELECT columns FROM table_name WHERE where_conditions GROUP BY columns;

group by多列去重语法如下。

SELECT columns FROM table_name WHERE where_conditions GROUP BY columns;

对于使用group by去重操作是将结果先进行分组排列,然后返回分组之后的第一条元素,并且根据group by 后面的字段进行去重。

distinct 和 group by的原理

在大多数的情况下,distinct可以被看做是一个特殊的group by操作,因为其去重的原理都是基于分组进行操作的,并且都可以通过索引扫描来完成。例如下面两条的语句来进行分析一下。

explain select int1_index from test_distinct_groupby group by int1_index;

explain select distinct int1_index from test_distinct_groupby;

其结果对应的extra都是 Using index for group-by。也就是说在语义相同的情况下二者的执行效率是一样的。

这里需要注意的是group by操作在MySQL8.0之前,会默认使用字段进行隐式的排序操作。也就是说在去重的同时还对去重字段进行了排序。而且这种隐式的排序在数据量超过一定大小的时候,会将临时数据拷贝到磁盘上进行操作,这样整个的SQL语句的执行效率会非常低。所以在MySQL8.0开始就放弃了这种隐式排序操作。

结论

在语相同的情况下,group by和distinct 都使用了索引,并且效率相同,在这种情况下两者几乎是等价的。

在语义相同,但没有索引的情况下,distinct的效率要高于group by,原因是distinct和group by都进行了分组操作,但是对于group by来讲,在MySQL8.0之前会进行隐式的排序,这样就会导致 filesort,这样就会导致SQL执行效率比较低。

但是从MySQL8.0开始,MySQL就删除了隐式的排序操作,所以在语义相同的情况,如果没有索引两者的效率是一样的。

为什么要推荐group by的使用呢?

因为相比较distinct来讲,group by更容易被理解,而且由于distinct会对所有的字段都生效,所以在进行一些复杂处理的时候,相比较于group by来说相对灵活。

相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...