百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

HIVE应用-COLLECT函数(包含CONCAT_WS、DISTRIBUTE BY、SORT BY)

wptr33 2024-11-11 16:08 22 浏览


#头条创作挑战赛#?#程序员#?

1.collect_list 和 collect_set 函数计

  • 基本用法:collect_list()和collect_set()函数的作用是将某基本类型字段值聚合到array类型字段,由于collect_list()和collect_set()函数只有1个入参,所以当多个字段聚合时,可以利用concat进行拼接后作为入参,当需要按照某个或者多个字段分组时,需要配合group by使用,生成分组聚合数据;
  • 差异点:主要是collect_set是返回集合,会对重复数据去重,而collect_list返回是数组列表,不会去重;由于collect_list返回是数组结构,所以可以配合distribute by和sort by生成有序列表,而collect_set是无序的计算机;
select c, collect_list(concat(colA, '_', colB)) from tb group by c;
select c, collect_set(concat(colA, '_', colB)) from tb group by c;

2.concat_ws 和 concat 函数

  • concat基本用法:cocat函数是多列字段进行拼接合并,不支持某字段为NULL的情况;
  • concat_ws基本用法:cocat_ws函数是可支持字段为NULL的情况,同时可配合collect_list进行使用,输出拼接后的字符串,如上面代码段;

3.distribute by 和sort by

  • 基本用法:distribute by作用是数据分区,分区规则是基于分区字段的hash值与reduce的数量进行取模,相同余数的数据分到同一个分区;sort by 作用是数据排序,可以结合asc和desc进行数据正排和倒排,与distribute by结合时,可以进行分区下的数据排序;返回结果与row_number() over(partition by c sort by c,val desc) as rk和order by rk相同,但order by是全局下排序,计算比较耗时。
SELECT
	c,
	collect(',', concat(a, '_', 'b')) AS ab
FROM
	(
		SELECT c, a, b, val FROM tb distribute BY c SORT BY c, val DESC
	)
GROUP BY
	c


如有遗漏缺陷,可留言补充纠正!

相关推荐

Linux高性能服务器设计

C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...

独立游戏开发者常犯的十大错误

...

学C了一头雾水该咋办?

学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...

C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?

上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...

C语言实战小游戏:井字棋(三子棋)大战!文内含有源码

井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...

C++语言到底是不是C语言的超集之一

C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...

在C++中,如何避免出现Bug?

C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...

ESL-通过事件控制FreeSWITCH

通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...

物理老师教你学C++语言(中篇)

一、条件语句与实验判断...

C语言入门指南

当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...

C++选择结构,让程序自动进行决策

什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...

C++特性使用建议

1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...

C++程序员学习Zig指南(中篇)

1.复合数据类型结构体与方法的对比C++类:...

研一自学C++啃得动吗?

研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...

C++关键字介绍

下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...