HIVE内外部表与HQL 行列转换 hive内外部表的区别
wptr33 2024-11-11 16:08 21 浏览
Hive内部表与外部表的区别
内部表 (managed table) : 未被external修饰
外部表 (external table) :被external修饰
区别:
存储位置: 内部表的数据存储在Hive的默认文件系统中,而外部表的数据存储在外部文件系统中。外部文件系统可以是本地文件系统、HDFS等,这使得外部表可以方便地与其他系统进行数据共享和交互。
数据管理: 当删除内部表时,Hive会自动删除该表及其数据。而删除外部表时,只会删除表的元数据,而不会删除表的数据。这是因为内部表数据由Hive自身管理,外部表的数据并不是由Hive管理的(由HDFS管理),因此在删除外部表时需要手动清理数据。
表的创建方式:内部表可以通过CREATE TABLE语句进行创建,也可通过Hive自动将HDFS上的目录映射为表的方式进行创建。而外部表只能通过CREATE EXTERNAL TABLE语句进行创建。
数据导入:对于内部表,可以通过INSERT语句将数据导入到表中。而对于外部表,需要先将数据存储在外部文件系统中,然后通过LOAD DATA语句将数据加载到表中。
应用场景:
1)内部表适合存储对数据的修改和删除操作,因为删除内部表时可以直接删除相关的数据文件。一般内部表在数仓中的DW(细节层) 中使用;
2)外部表适合存储对数据的只读操作,比如将已经存在的数据文件导入到Hive中进行分析。一般外部表在数仓中的ODS层(贴源层) 中使用。
HQL 行列转换
1、行转列: UDF聚合函数
1) 相关函数
concat: 返回输入字符串连接后的结果,支持任意个输入字符串;
concat ws(separator, str1,str2,..: 它是一个特殊形式的 concat0;第一个参数传入参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;
collect set(col): 函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。
2) 数据准备
name | constellation | blood_type |
小孙 | 白羊座 | A |
大海 | 射手座 | A |
小宋 | 白羊座 | B |
小八 | 白羊座 | A |
小风 | 射手座 | A |
3) 创建hive表并导入数据
create table person info(
name string,
constellation string,
blood type string)
row format delimited fields terminated by "t";
load data local inpath "/opt/module/datas/constellation.txt" into table person info;
注:该表采用的是文本格式的数据文件,字段之间使用制表符 \t 进行分隔,因此在 create table 语句中使用了 row format delimited fields terminated by "\t" 来指定字段分隔符为制表符。其中 row format delimited 表示指定行的格式,fields terminated by "\t" 表示指定字段之间的分隔符为制表符。
接下来,使用 load data 语句将文本文件 /opt/module/datas/constellation.txt 中的数据导入到 person_info 表中。load data 语句用于将数据从外部存储器(如本地文件系统或 HDFS)导入到 Hive 表中。其中 local inpath 表示指定本地文件路径,/opt/module/datas/constellation.txt 是需要导入的文本文件的路径,into table 表示将数据导入到指定的表名 person_info 中。
需要注意的是,如果该表已经存在,则可以使用 insert into 语句将新数据插入到表中,或者使用 truncate table 语句清空表中的数据并重新导入数据。另外,在导入数据之前,需要确保表结构的定义与数据文件的格式相匹配,否则可能会导致数据导入失败或数据丢失等问题。
4)需求
把星座和血型一样的人归类到一起。结果如下:
射手座,A | 大海|小风 |
白羊座,A | 小孙|小八 |
白羊座,B | 小宋 |
select name,concat(constellation, " ",blood type) as base from person_info;
select
t1.base concat_ws ('|',collect_set ( t1.name )) name
from
( select name, concat( constellation, ",", blood type ) as base from person_info; ) t1
group by t1.base;
2、列转行: UDTF爆炸函数
1)相关函数
explode(col): 将hive一列中复杂的array或者map结构拆分成多行
lateral view
用法: lateral view udtf(expression) tableAlias AS columnAlias
解释: 用于和split,explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
2)数据准备
movie | category |
《战狼》 | 战争、灾难、动作 |
《疑犯》 | 动作、悬疑、剧情、科幻 |
《Life》 | 悬疑、警匪、心理、动作、剧情 |
3) 创建hive表并导入数据
create table movie_info(
movie string,
category array<string>)
row format delimited fields terminated by "t"
collection items terminated by ",";
load data local inpath "/opt/module/datas/movie.txt" into table movie_info
4) 需求
将电影分类中的数组数据展开
select movie,category name from movie_info
lateral view explode(category) table_category as category_name
相关推荐
- Linux高性能服务器设计
-
C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...
- 独立游戏开发者常犯的十大错误
-
...
- 学C了一头雾水该咋办?
-
学C了一头雾水该怎么办?最简单的方法就是你再学一遍呗。俗话说熟能生巧,铁杵也能磨成针。但是一味的为学而学,这个好像没什么卵用。为什么学了还是一头雾水,重点就在这,找出为什么会这个样子?1、概念理解不深...
- C++基础语法梳理:inline 内联函数!虚函数可以是内联函数吗?
-
上节我们分析了C++基础语法的const,static以及this指针,那么这节内容我们来看一下inline内联函数吧!inline内联函数...
- C语言实战小游戏:井字棋(三子棋)大战!文内含有源码
-
井字棋是黑白棋的一种。井字棋是一种民间传统游戏,又叫九宫棋、圈圈叉叉、一条龙、三子旗等。将正方形对角线连起来,相对两边依次摆上三个双方棋子,只要将自己的三个棋子走成一条线,对方就算输了。但是,有很多时...
- C++语言到底是不是C语言的超集之一
-
C与C++两个关系亲密的编程语言,它们本质上是两中语言,只是C++语言设计时要求尽可能的兼容C语言特性,因此C语言中99%以上的功能都可以使用C++完成。本文探讨那些存在于C语言中的特性,但是在C++...
- 在C++中,如何避免出现Bug?
-
C++中的主要问题之一是存在大量行为未定义或对程序员来说意外的构造。我们在使用静态分析器检查各种项目时经常会遇到这些问题。但正如我们所知,最佳做法是在编译阶段尽早检测错误。让我们来看看现代C++中的一...
- ESL-通过事件控制FreeSWITCH
-
通过事件提供的最底层控制机制,允许我们有效地利用工具箱,适时选择使用其中的单个工具。FreeSWITCH是一个核心交换与混合矩阵,它周围有几十个模块提供各种功能特性。我们完全控制了所有的即时信息,这些...
- 物理老师教你学C++语言(中篇)
-
一、条件语句与实验判断...
- C语言入门指南
-
当然!以下是关于C语言入门编程的基础介绍和入门建议,希望能帮你顺利起步:C语言入门指南...
- C++选择结构,让程序自动进行决策
-
什么是选择结构?正常的程序都是从上至下顺序执行,这就是顺序结构...
- C++特性使用建议
-
1.引用参数使用引用替代指针且所有不变的引用参数必须加上const。在C语言中,如果函数需要修改变量的值,参数必须为指针,如...
- C++程序员学习Zig指南(中篇)
-
1.复合数据类型结构体与方法的对比C++类:...
- 研一自学C++啃得动吗?
-
研一自学C++啃得动吗?在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C++的资料从专业入门到高级教程」,点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!个人...
- C++关键字介绍
-
下表列出了C++中的常用关键字,这些关键字不能作为变量名或其他标识符名称。1、autoC++11的auto用于表示变量的自动类型推断。即在声明变量的时候,根据变量初始值的类型自动为此变量选择匹配的...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
面试官:git pull是哪两个指令的组合?
-
git 执行pull错误如何撤销 git pull fail
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mysql max (33)
- vba instr (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)