百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

四十四、SparkSQL整合Hive (Spark on Hive)

wptr33 2024-12-20 19:04 13 浏览

SparkSQL设计的目的是让用户可以在Spark上面使用SQL语法处理结构数据,它支持丰富的数据源,可以是RDD, 也可以是外部的数据源(文件文件、json、csv、parquet、hive、hbase等)。SparkSQL的一个重要的分支就是Spark兼容Hive, 也就是在Spark中运用了Hive的元数据管理、HQL语法、UDFs、序列化与反序列化(SerDers)功能:

在这里会涉及到两个概念:Spark on HiveHive on Spark,那么这两者之间有什么区别呢?

一、理解Spark on Hive与Hive on Spark

  • 1.Spark on Hive

Hive在这里扮演的角色是存储角色,Spark负责sql的解析与优化,执行。具体可以理解为SparkSQL使用Hive语句操作Hive表,底层的计算引擎使用的是Spark RDD,具体的流程如下:

    • 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息(一般存储在MySQL或PostgreSQL等关系型数据库中, 建议不使用自带的derby数据库,因为Derby数据库不支持多用户同时访问)
    • 获取到Hive的元数据信息后可以拿到Hive表的数据;
    • 通过SparkSQL来操作Hive中的表;
  • 2.Hive on Spark

Hive在这里扮演的角色是既作为存储,同时还负责sql的解析与优化,Spark仅负责计算,即Spark的角色是执行引擎,一般通过几下配置:

    • 配置hvie-site.xml中的hive.execution.engine,默认为mapreduce, 即mr
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
    <description>
      Expects one of [mr, tez, spark].
      Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
      remains the default engine for historical reasons, it is itself a historical engine
      and is deprecated in Hive 2 line. It may be removed without further warning.
    </description>
  </property>
    • 将spak所需要的所有依赖包拷贝到$HIVE_HOME/lib/下, 这种配置方法可能会因为依赖包的版本问题发生很多错误,处理起来比较麻烦,一般需要对Spark源码进行编译。

与Spark on Hive相比,这种实现比较麻烦,必须要重新编译Spark并导入Hive的相关依赖jar包。目前,主流的使用是Spark on Hive。下面就以Spark on Hive这种方式来讲解Spark与Hive的整合。


二、Spark整合Hive (Spark on Hive)流程

  • 1.元数据库MySQL的安装与配置
  • 2.MySQL中创建操作Hive元数据库的用户并授权

mysql> create user 'hive'@'%' identified by 'Love88me';
Query OK, 0 rows affected (0.00 sec)

mysql> grant all privileges on hivedb.* to 'hive'@'%' identified by 'Love88me' with grant option;
Query OK, 0 rows affected, 1 warning (0.00 sec)

mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
  • 3.MySQL的JDBC驱动包

这里有两种方法:

    • 方法一:把MySQL的JDBC驱动包拷贝到$SPARK_HOME/jars目录下;
    • 方法二:启动spark-sql命令行时指定--driver-class-path指定MySQL的JDBC驱动包位置

这里,我选用了第一种方法

  • 4.配置hive-site.xml,并分发到Spark的配置目录下
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!--
   Licensed to the Apache Software Foundation (ASF) under one or more
   contributor license agreements.  See the NOTICE file distributed with
   this work for additional information regarding copyright ownership.
   The ASF licenses this file to You under the Apache License, Version 2.0
   (the "License"); you may not use this file except in compliance with
   the License.  You may obtain a copy of the License at

       http://www.apache.org/licenses/LICENSE-2.0

   Unless required by applicable law or agreed to in writing, software
   distributed under the License is distributed on an "AS IS" BASIS,
   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
   See the License for the specific language governing permissions and
   limitations under the License.
-->
<configuration>
  <property>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://node04:3306/hivedb?createDatabaseIfNotExist=true&characterEncoding=utf-8&useSSL=false</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>hive</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>Love88me</value>
        </property>
</configuration>
  • 5.高可用的hdfs配置(根据实际情况)

如果hdfs是高可用的hdfs, 即有多个namenode的情况,有两种情况可以解决问题:

    • 方法一:需要将hdfs的core-site.xml和hdfs.xml放入Spark的conf目录;
    • 方法二:配置环境变量HADOOP_CONF_DIR指向$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

这两种方法选择任一种即可, 此处我选择了第二种。


  • 6.启动spark-sql

在启动前,确保hadoop的集群与Spark的standalone集群已成功启动。然后启动spark-sql:

[hadoop@node01 spark]$ bin/spark-sql --master spark://node01:7077,node02:7077 --conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse  

注意:

在Spark2.0版本以后由于出现了SparkSession, 在运行spark-sql时,会设置默认的spark.sql.warehouse.dir=spark-warehouse, 此时将Hive与SparkSQL整合完成后,在通过spark-sql脚本启动的时候,就会在启动的目录下创建一个spark.sql.warehouse.dir指定的目录用来存放spark-sql创建数据库和创建数据表的信息,与之前hive的数据信息不存在同一路径下,也就是说由spark-sql中创建的库和表的信息在本地,不在HDFS上,这样不利于操作。所以,解决的方法如下:

在启动spark-sql的时候要加上一个参数:

--conf spark.sql.warehouse.dir=hdfs://mycluster/user/hive/warehouse

这样可以保证spark-sql启动时不再产生新的存放数据的目录,sparksql与hive最终使用的是hive统一存放在hdfs上存放数据的目录。


此时,查看MySQL数据库,可以看出元数据信息是已被创建:

7.常规操作

spark-sql> show databases; //查看有哪些数据库

spark-sql> create database mydb; //创建数据库

//创建表sanguo
spark-sql> create table sanguo
         > (id bigint, master string, member string, country string, power int, weapon string) 
         > row format delimited fields terminated by ',';
//导入本地sanguo.txt中的数据
1,刘备,关羽,蜀国,105,青龙偃月刀
2,刘备,张飞,蜀国,102,丈八蛇矛
3,刘备,赵云,蜀国,100,剑
4,刘备,马超,蜀国,99,霸王枪
5,刘备,黄忠,蜀国,98,弓箭
6,刘备,诸葛亮,蜀国,64,羽扇
7,曹操,张辽,魏国,95,刀
8,曹操,典韦,魏国,99,刀
9,曹操,郭嘉,魏国,64,""

spark-sql> load data local inpath '/home/hadoop/sanguo.txt' into table sanguo;

//查看数据
spark-sql> select * from sanguo;

后话

  • 元数据信息是保存在MySQL中,保存的是描述hive表的描述信息,比如database名称、表名,列的类型等元数据信息, 还保存了hdfs在什么位置;
  • hive存放的是业务数据,用来做离线分析的数据,是数据仓库;

相关推荐

Linux文件系统操作常用命令(linux文件内容操作命令)

在Linux系统中,有一些常用的文件系统操作命令,以下是这些命令的介绍和作用:#切换目录,其中./代表当前目录,../代表上一级目录cd#查看当前目录里的文件和文件夹ls#...

别小看tail 命令,它难倒了技术总监

我把自己以往的文章汇总成为了Github,欢迎各位大佬star...

lnav:基于 Linux 的高级控制台日志文件查看器

lnav是一款开源的控制台日志文件查看器,专为Linux和Unix-like系统设计。它通过自动检测日志文件的格式,提取时间戳、日志级别等关键信息,并将多个日志文件的内容按时间顺序合并显示,...

声明式与命令式代码(声明模式和命令模式)

编程范式中的术语和差异信不信由你,你可能已经以开发人员的身份使用了多种编程范例。因为没有什么比用编程理论招待朋友更有趣的了,所以这篇文章可以帮助您认识代码中的流行范例。命令式编程命令式编程是我们从As...

linux中的常用命令(linux常用命令和作用)

linux中的常用命令linux中的命令统称shell命令shell是一个命令行解释器,将用户命令解析为操作系统所能理解的指令,实现用户与操作系统的交互shell终端:我们平时输入命令,执行程序的那个...

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf...

如何限制他人操作自己的电脑?(如何控制别人的电脑不让发现)

这段时间,小猪罗志祥正处于风口浪尖,具体是为啥?还不知道的小伙伴赶紧去补一下最近的娱乐圈八卦~简单来说,就是我们的小罗同事,以自己超强的体力,以及超强的时间管理能力,重新定义了「多人运动」的含义,重新...

最通俗易懂的命令模式讲解(命令模式百科)

我们先不讲什么是命令模式,先通过一个场景来引出命令模式,看看命令模式能解决什么样的问题。现在有一个渣男张三,他有还几个女朋友,你现在是不是还是单身狗,你就说你气不气?然后他需要每天分别叫几个女朋友起床...

互联网大厂后端必看!Spring Boot 中Runtime执行与停止命令?

你是否曾在使用SpringBoot开发项目时,遇到需要执行系统命令的场景?比如调用脚本进行文件处理,又或是启动外部程序?很多后端开发人员会使用Processexec=Runtime.get...

Linux 常用命令(linux常用的20个命令面试)

日志排查类操作命令...

Java字节码指令:if_icmpgt(0xA3)(java字节码使用的汇编语言)

if_icmpgt是Java字节码中的一条条件跳转指令,其全称是"IfIntegerCompareGreaterThan"。它用于比较两个整数值的大小。如果栈顶的第一个...

外贸干货|如何增加领英的曝光量和询盘

#跨境电商#...

golang执行linux命令(golang调用shell脚本)

需求需要通过openssl生成rsa秘钥,然后保存该秘钥。代码实例packagemainimport("io/ioutil""bytes"&...

LINUX磁盘挂载(linux磁盘挂载到windows)

1、使用root用户查看磁盘挂载情况:fdisk-l2、使用df查看当前磁盘挂载情况,根据和fdisk-l的结果进行对比,查看还有那些磁盘未使用3、挂载:mount磁盘挂载路径...

Linux命令学习——nl命令(linux ln命令的使用)

nl命令主要功能为每一个文件添加行号,每一个输入的文件添加行号后发送到标准输出。当没有文件或文件为-时,读取标准输入...