百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

SQL实用技巧-行列转换

wptr33 2024-12-03 18:47 12 浏览

PIVOT关键字对于指定的每一组行值,都会生成对应的列。PIVOT关键字是FROM子句的一部分,可以和JOIN等其他关键字一同使用

在编写大数据SQL的时候,有时需要进行行列的转化。

什么是行列转化?如下图,不同商品在不同月份的销量数据,有时候我们希望数据和左侧一样的排列,但原始数据却像右侧一样排列,此时我们需要把右侧的列排列转换成左侧的行排列,反之亦然。

下面以上面这个例子为大家介绍一些行列转换的方式。

一、行转列

使用CASE WHEN

适用场景:MySQL、Hive、Spark SQL。

把行转换成列最简单的方式就是使用CASE WHEN。

case month when '2024-01' then sales end的意思是当month的值为'2024-01'时取sales的值,其他情况取NULL,因此可以计算出不同月份的销量。

select  product
        ,max(case month when '2024-01' then sales end) as month_01
        ,max(case month when '2024-02' then sales end) as month_02
        ,max(case month when '2024-03' then sales end) as month_03
from    sales_row
group by product

使用PIVOT

适用场景:Spark SQL。

PIVOT关键字对于指定的每一组行值,都会生成对应的列。PIVOT关键字是FROM子句的一部分,可以和JOIN等其他关键字一同使用。

SELECT ... 
FROM ... 
PIVOT ( 
    <aggregate function> [AS <alias>] [, <aggregate function> [AS <alias>]] ... 
    FOR (<column> [, <column>] ...) 
    IN ( 
        (<value> [, <value>] ...) AS <new column> 
        [, (<value> [, <value>] ...) AS <new column>] 
        ... 
       ) 
    ) 
[...]

参数

是否必选

说明

aggregate function

聚合函数

alias

聚合函数的别名,别名和最终PIVOT处理过后生成的列名相关

column

指定转换为列的行值在源表中的列名称

value

指定转换为列的行值

new column

转换后新的列名称

直接看示例。

利用PIVOT把month列按值聚合出了三列month_01,month_02,month_03。

select  *
from    sales_row 
PIVOT (
     MAX(sales) for month in(
       '2024-01' as month_01, 
       '2024-02' as month_02, 
       '2024-03' as month_03
     )
)

二、列转行

使用UNION ALL

适用场景:MySQL、Hive、Spark SQL。

UNION ALL相当于取每一个列的值,然后并联在一起,注意'2024-01' as month中的2024-01是字符串。

使用UNION ALL的好处就是,无论是mysql、hive还是spark都支持,以不变应万变。

缺点就是当要关联列比较多时比较麻烦,如果要查询全年的数据,则需要UNION ALL 12次,如果是天数据则要UNION ALL 365次。

select  *
from    (
    select product, '2024-01' as month, month_01 from sales_column
    union all
    select product, '2024-02' as month, month_02 from sales_column
    union all
    select product, '2024-03' as month, month_03 from sales_column
)

仅使用EXPLODE

适用场景:Spark SQL。

explode可以将一个数组或者map分解成多行,例如:

select explode(split('A,B,C', ','))

# 结果
col
A
B
C
select explode(map('2024-01', 1000, '2024-02', 2000, '2024-03', 3000))

# 结果
key     value
2024-01 1000
2024-02 2000
2024-03 3000

对于列转行的需求,可以先创建一个map之后再利用explode拆分成多行。

注意下面SQL中,explode函数返回值有两个,因此设置列别名时需要用as (month, sales)。

select  product
        ,explode(
          map('2024-01', month_01, 
              '2024-02', month_02, 
              '2024-03', month_03)
        ) as (month, sales)
from    sales_column

类似的思路还可以利用concat+trans_array等操作。

hive中的UDTF

上面的方式仅适用于Spark。

当使用UDTF函数(explode就是一个UDTF函数)的时候,Hive只允许对拆分字段进行访问。

select explode(map('2024-01', 1000, '2024-02', 2000, '2024-03', 3000))

# 结果
key     value
2024-01 1000
2024-02 2000
2024-03 3000

也就是说在Hive中,上面SQL是没问题的,下面的SQL就会报错了

hive> select  product
    >   ,explode(map('2024-01', month_01, '2024-02', month_02, '2024-03', month_03))
  >  from    sales_column

SemanticException [Error 10081]: UDTF's are not supported outside the SELECT clause, nor nested in expressions

因此这块需要使用LATERAL VIEW功能来进行处理。LATERAL VIEW将explode生成的结果当做一个视图来处理。

使用Lateral View

适用场景:Hive、Spark SQL。

lateral view为侧视图,意义是为了配合UDTF来使用,把某一行数据拆分成多行数据。

Hive中不加lateral view的UDTF只能提取单个字段拆分。加上lateral view就可以将拆分的单个字段数据与原始表数据关联上。

LATERAL VIEW [ OUTER ] generator_function ( expression [ , ... ] ) [ table_alias ] AS column_alias [ , ... ]

参数

是否必选

说明

generator_function

将一行数据拆成多行数据的UDTF (EXPLODE, INLINE等)

table_alias

UDTF结果的别名

columnAlias

拆分后得到的列的别名

直接看如何利用lateral view实现列转行。

select  product, t_view.month, t_view.sales
from    sales_column
lateral view explode(
    map('2024-01', month_01, '2024-02', month_02, '2024-03', month_03)
) t_view as month, sales

其中explode(map('2024-01', month_01, '2024-02', month_02, '2024-03', month_03))把map分解成多行。

lateral view同时指定了这个侧视的表名t_view和两列的列名month 、sales。

lateral view explode(
    map('2024-01', month_01, '2024-02', month_02, '2024-03', month_03)
) t_view as month, sales

# 模拟结果,lateral view不能单独使用
month sales
2024-01 1000
2024-02 1100
2024-03 1200
2024-01 1100
2024-02 1000
2024-03 1400

此时select product, t_view.month, t_view.sales就能达成UDTF拆分的单个字段数据与原始表数据关联的效果了。

select  product, t_view.month, t_view.sales
from    sales_column

# 结果
product month sales
A 2024-01 1000
A 2024-02 1100
A 2024-03 1200
B 2024-01 1100
B 2024-02 1000
B 2024-03 1400

使用UNPIVOT

适用场景:Spark 3.4+。

UNPIVOT关键字对于指定的每一组列,都会生成对应的行。其中UNPIVOT关键字是FROM子句的一部分,可以和JOIN关键字等其他关键字一同使用。

SELECT ...
FROM ...
UNPIVOT (
  <new column of value> [, <new column of value>] ...
  FOR (<new column of name> [, <new column of name>] ...)
  IN (
      (<column> [, <column>] ...) [AS (<column value> [, <column value>] ...)]
      [, (<column> [, <column>] ...) [AS (<column value> [, <column value>] ...)]]
      ...
    )
)
[...]

参数说明如下:

参数

是否必选

说明

new column of value

转换后新生成的列名称,该列的值由指定转换为行的列的值填充。

new column of name

转换后新生成的列名称,该列的值由指定转换为行的列名称填充。

column

指定转换为行的列名称,列的名称用来填充new column of name;列的值用来填充new column of value。

column value

指定转换为行的列的别名

也是直接看示例:

select  *
from    sales_column 
UNPIVOT (
  sales for month in (month_01 as '2024-01', month_02 as '2024-02', month_03 as '2024-03')
)

sales for month in (month_01, month_02, month_03)的意思就是生成一个新列sales,这一列的值是month_01, month_02, month_03这三列的值。

生成一个新列month, 这里一列的值是month_01, month_02, month_03这三列的列名,即'2024-01', '2024-02', '2024-03'。


相关推荐

Spring和SpringBoot到底有什么区别

一提到Spring和SpringBoot的区别,大部分人第一反应就是SpringBoot是Spring的框架,那具体的区别在哪里呢?为什么现在开发都用SpringBoot呢?...

Spring Boot3.0升级,踩坑之旅,附解决方案

本文基于newbeemall项目升级SpringBoot3.0踩坑总结而来,附带更新说明:...

Java常用框架,你用过几款?(java使用的框架)

作为头牌编程语言,Java的火爆程度已经毋庸置疑,Java框架在Java开发中有着不可忽视的重要地位。今天就给大家具体介绍一下Java常用框架,希望对正在学习Java的小伙伴有所帮助。框架、设计模式框...

2021年超详细的java学习路线总结—纯干货分享

本文整理了java开发的学习路线和相关的学习资源,非常适合零基础入门java的同学,希望大家在学习的时候,能够节省时间。纯干货,良心推荐!第一阶段:Java基础...

Nginx+SpringBoot实现负载均衡(nginx负载均衡的实现)

作者:虚无境出处:http://www.cnblogs.com/xuwujing前言在上一篇中介绍了Nginx的安装,本篇文章主要介绍的是Nginx如何实现负载均衡。负载均衡介绍介绍在介绍Nginx的...

Spring Boot 运行原理(5分钟速解)

SpringBoot...

SpringBoot+LayUI后台管理系统开发脚手架

源码获取方式:关注,转发之后私信回复【源码】即可免费获取到!项目简介本项目本着避免重复造轮子的原则,建立一套快速开发JavaWEB项目(springboot-mini),能满足大部分后台管理系统基础开...

java轻松玩转Excel之EasyExcel(java做excel)

项目地址:https://github.com/PiKeZhao/excel-model.git如果您对该项目有什么问题加群咨询哦978219630(各类电子书籍,学习视频等)大家常用Apache...

开源一套简单通用的后台管理系统(开源系统靠什么赚钱)

  前言  前段时间我们写一个简单的后台模板SpringBoot系列——Security+Layui实现一套权限管理后台模板<...

VUE简介(vue简介和特点)

一.前后端分离既然我们在开发中使用前后端分离模式,也就是前端拿到后端的数据时怎么处理,怎么输出都有前端自己来实现,这样就需要写大量的js代码,而为了简化js的代码,就衍生出了很多的框架,比如jquer...

聊聊如何对eureka管理界面进行定制化改造

前言在nacos还未面世之前,eureka基本上就是springcloud全家桶体系注册中心的首选,随着nacos的横空出世,越来越多基于springcloud的微服务项目采用nacos作为注册中心,...

newbee-mall开源免费java商城系统

简介newbee-mall项目(新蜂商城)是一套电商系统,包括newbee-mall商城系统及newbee-mall-admin商城后台管理系统,基于SpringBoot2.X及相关...

入职阿里巴巴,成为年薪百万阿里P7高级架构师需要必备哪些技术栈

大家都知道,阿里P7高级技术专家,基本上是一线技术人能达到的最高职级,也是很多程序员追求的目标。达到年入百万的P7Java高级架构师级别,不仅要具备优秀的编程能力和系统设计能力,在技术视野和业务洞...

学完SSM框架就可以成为Java程序员了?要找到工作还需要这些技术

Java语言是学习人数最多的语言,没错,应用领域的优势和就业薪资的吸引是不少人关注Java语言的理由。但其实Java也是一门“宽进严出”的编程语言,想成为Java高手并不容易。那么学到什么程度才能出师...

SpringCloud系列——SSO 单点登录

  前言  作为分布式项目,单点登录是必不可少的,文本基于之前的的博客(猛戳:SpringCloud系列——Zuul动态路由,SpringBoot系列——Redis)记录Zuul配合Redis实现一...