一篇文章搞定MySQL中的窗口函数(mysql常用的窗口函数)
wptr33 2025-07-28 00:38 25 浏览
我是孙斌,北理数学系毕业,分享数据分析相关知识,点击右上角“关注”,学习更多数据分析知识。
在MySQL中,分组group by一般和聚合函数连用,如group by+sum,这样能够得到每个组的总和,但是每个组内部的信息就被压缩掉了,例如,想知道每个组内的排名情况,以前这个问题不太好处理,有了窗口函数,这个问题就变得很简单了。
窗口函数有什么用
从 MySQL 8.0 开始,MySQL 加入了窗口函数,窗口函数有什么用呢?
主要用于解决分组排名问题,最典型的就是 TopN 问题,比如获取每个地区销售额前三名的地区。
有同学可能会有疑问,如果是分组,用 group by 不就行了?的确没错,可是现在要的是分组后每个组内的排名啊。
如果只用 group by,则只能得到每个分组的第一个值,无法展现出每个组内部的情况,或者只能得到每个组的总和或者均值等。
如何更高效地解决这种 TopN 问题呢?这就需要用到窗口函数了。
简单来说,就是对数据进行分组,每个分组内部其实还有很多记录,每个组相当于一个窗口,然后通过一些函数对每个窗口内的数据进行分析处理。
首先,看一个小例子。有以下销售数据表。
上表中,第一列是 id,第二列是销售人员姓名,第三列示订单日期,第四列是销售额,最后一列是地区。 现在我们希望将每个地区的销售人员按照销售额降序排列,并给出排名。 利用窗口函数可以这样写 SQL 代码。
select region, salesman, amount,
rank() over (partition by region order by amount desc) as rk
from orders;
运行结果:
运行结果中最后一列是每个销售人员的排名,按照销售额降序排名。
上面的代码,核心部分为:
rank() over (partition by 字段1 order by 字段2)
这就是窗口函数的基本格式,由于这里要获取每个组的排名,所以用到了 rank()函数,partition 表示分块、分组,根据哪个字段进行分组,order by 表示排序。
当然,这里的 rank()函数可以替换为其他函数,根据需要实现的功能来定。
常用的窗口函数
常用的窗口函数还有 row_number, sum/avg/min/max, cume_dist, lag, first_value, last_value, ntile 等,这么多窗口函数,大致分为以下 5 种类型。
- 排名函数:rank(获取排名), row_number(获取行号,相当于排名)。
- 聚合函数:sum(求和),avg(求均值),min(求最小值),max(求最大值)。
- 分布函数:cume_dist(求累积占比)。
- 前后函数:lag(向前取值),lead(向后取值)。
- 头尾函数:first_value(第一个),last_value(最后一个)。
除了这些函数,还有其他一些函数,如 ntile,能够将有序数据分为 n 个组。
下面,我们通过一些具体的案例来说明这些函数的用法。
1、排名函数
前面的例子已经演示了用 rank 函数获取分组排名,用 row_number 函数也能实现同样的效果,代码如下。
select region, salesman, amount,
row_number() over (partition by region order by amount desc) as rk
from orders;
运行结果:
这里本质上获取的是行号,如果两个数值相同,用 rank 函数获取的排名就会相同,而 row_number 则不会。
2、聚合函数
例如,我们希望分部门按照订单日期累加销售额,并将结果作为新的一列,这就要用到 sum 函数,SQL 代码如下。
select region, order_date, amount,
sum(amount) over (partition by region order by order_date rows between 2 preceding and current row) as accum
from orders;
运行结果:
最后一列就是累加销售额。
3、分布函数
例如,想分地区按照日期统计每天的销售额累积占比,这就要用到 cume_dist 函数,SQL 代码如下。
select region, order_date, amount,
cume_dist() over (partition by region order by order_date) as ration
from orders;
运行结果:
这里得到的就是销售额的累积占比。
4、前后函数
例如,想分地区按照销售额排序,查询前一名销售员和当前人员的销售额的差值。
解决这个问题可以分为两步。
第一步: 先找出每个销售人员的销售额的前一个数值,这就要用到 lag 函数取当前值的前一个值。
select region, salesman, order_date, amount,
lag(amount, 1) over (partition by region order by order_date) as amount_pre
from orders;
运行结果:
最后一列得到的就是当前值的前一个值。
第二步: 作差,即用当前人员的销售额减去对应的前一个数值。
select region, salesman, order_date, amount, amount_pre, amount - amount_pre as dif
from(
select region, salesman, order_date, amount,
lag(amount, 1) over (partition by region order by order_date) as amount_pre
from orders
) as t;
运行结果:
最后一列就是销售额的差值。
5、头尾函数
例如,我们希望先按照订单日期进行排序,然后分地区查询第 1 个销售人员的销售额。
这就要用到 first_value 函数去获取每组里的第一个值,SQL 代码如下。
select region, order_date, amount,
first_value(amount) over (partition by region order by order_date) as first_amount
from orders;
运行结果:
最后一列就是第 1 个销售人员的销售额。
除了上述用法之外,还有其他一些用法,例如,我们希望按照地区将销售额分为 3 个等级。
这就要用到ntile函数,这个函数能够将有序数据分为 n 个等级。
select region, salesman, order_date, amount,
ntile(3) over (partition by region order by amount) as rk
from orders;
运行结果:
这样就将每个地区的销售额分为 3 个等级。
以上就是 MySQL 中的窗口函数。
觉得对您有帮助,点赞+关注哦!
相关推荐
- MySQL进阶五之自动读写分离mysql-proxy
-
自动读写分离目前,大量现网用户的业务场景中存在读多写少、业务负载无法预测等情况,在有大量读请求的应用场景下,单个实例可能无法承受读取压力,甚至会对业务产生影响。为了实现读取能力的弹性扩展,分担数据库压...
- 3分钟短文 | Laravel SQL筛选两个日期之间的记录,怎么写?
-
引言今天说一个细分的需求,在模型中,或者使用laravel提供的EloquentORM功能,构造查询语句时,返回位于两个指定的日期之间的条目。应该怎么写?本文通过几个例子,为大家梳理一下。学习时...
- 一文由浅入深带你完全掌握MySQL的锁机制原理与应用
-
本文将跟大家聊聊InnoDB的锁。本文比较长,包括一条SQL是如何加锁的,一些加锁规则、如何分析和解决死锁问题等内容,建议耐心读完,肯定对大家有帮助的。为什么需要加锁呢?...
- 验证Mysql中联合索引的最左匹配原则
-
后端面试中一定是必问mysql的,在以往的面试中好几个面试官都反馈我Mysql基础不行,今天来着重复习一下自己的弱点知识。在Mysql调优中索引优化又是非常重要的方法,不管公司的大小只要后端项目中用到...
- MySQL索引解析(联合索引/最左前缀/覆盖索引/索引下推)
-
目录1.索引基础...
- 你会看 MySQL 的执行计划(EXPLAIN)吗?
-
SQL执行太慢怎么办?我们通常会使用EXPLAIN命令来查看SQL的执行计划,然后根据执行计划找出问题所在并进行优化。用法简介...
- MySQL 从入门到精通(四)之索引结构
-
索引概述索引(index),是帮助MySQL高效获取数据的数据结构(有序),在数据之外,数据库系统还维护者满足特定查询算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构...
- mysql总结——面试中最常问到的知识点
-
mysql作为开源数据库中的榜一大哥,一直是面试官们考察的重中之重。今天,我们来总结一下mysql的知识点,供大家复习参照,看完这些知识点,再加上一些边角细节,基本上能够应付大多mysql相关面试了(...
- mysql总结——面试中最常问到的知识点(2)
-
首先我们回顾一下上篇内容,主要复习了索引,事务,锁,以及SQL优化的工具。本篇文章接着写后面的内容。性能优化索引优化,SQL中索引的相关优化主要有以下几个方面:最好是全匹配。如果是联合索引的话,遵循最...
- MySQL基础全知全解!超详细无废话!轻松上手~
-
本期内容提醒:全篇2300+字,篇幅较长,可搭配饭菜一同“食”用,全篇无废话(除了这句),干货满满,可收藏供后期反复观看。注:MySQL中语法不区分大小写,本篇中...
- 深入剖析 MySQL 中的锁机制原理_mysql 锁详解
-
在互联网软件开发领域,MySQL作为一款广泛应用的关系型数据库管理系统,其锁机制在保障数据一致性和实现并发控制方面扮演着举足轻重的角色。对于互联网软件开发人员而言,深入理解MySQL的锁机制原理...
- Java 与 MySQL 性能优化:MySQL分区表设计与性能优化全解析
-
引言在数据库管理领域,随着数据量的不断增长,如何高效地管理和操作数据成为了一个关键问题。MySQL分区表作为一种有效的数据管理技术,能够将大型表划分为多个更小、更易管理的分区,从而提升数据库的性能和可...
- MySQL基础篇:DQL数据查询操作_mysql 查
-
一、基础查询DQL基础查询语法SELECT字段列表FROM表名列表WHERE条件列表GROUPBY分组字段列表HAVING分组后条件列表ORDERBY排序字段列表LIMIT...
- MySql:索引的基本使用_mysql索引的使用和原理
-
一、索引基础概念1.什么是索引?索引是数据库表的特殊数据结构(通常是B+树),用于...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
程序员的开源月刊《HelloGitHub》第 71 期
-
详细介绍一下Redis的Watch机制,可以利用Watch机制来做什么?
-
假如有100W个用户抢一张票,除了负载均衡办法,怎么支持高并发?
-
Java面试必考问题:什么是乐观锁与悲观锁
-
如何将AI助手接入微信(打开ai手机助手)
-
SparkSQL——DataFrame的创建与使用
-
redission YYDS spring boot redission 使用
-
一文带你了解Redis与Memcached? redis与memcached的区别
-
如何利用Redis进行事务处理呢? 如何利用redis进行事务处理呢英文
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)