大数据处理 | Spark集群搭建及基本使用
wptr33 2024-12-20 19:03 33 浏览
本文将详细介绍Spark集群的搭建及Spark的运行原理、运行模式。
—▼—
Spark集群环境搭建
如果已经理解了前文Hadoop集群环境的搭建,那么学习Spark集群环境的搭建会容易很多,因为Hadoop和Spark不仅安装包目录结构非常相似,在配置方面也十分接近。均是在master节点上进行所有配置,然后打包复制到每个slave节点,然后启动集群Spark即可,下面就来详细介绍一下Spark集群环境的搭建。
下载安装
进入Spark的下载目录,
https://spark.apache.org/downloads.html
可以看到Spark分多个版本,有基于Hadoop构建好的,有没基于Hadoop构建的,有基于Hadoop2.6之前版本构建的,也有基于Hadoop2.7以后版本构建的,由于前面讲解Hadoop集群环境搭建时采用的是Hadoop 3.2.1,因此,而且本文需要使用HDFS依赖Hadoop,因此需要下载Pre-built for Apache Hadoop 2.7 and later,
把spark-2.4.4-bin-hadoop2.7.tgz文件下载到home路径下,然后解压到指定目录,
$?tar?-zxvf?~/spark-2.4.4-bin-hadoop2.7.tgz?-C?/usr/local/
然后进入目录并像Hadoop那样,修改Spark目录的拥有者,
$?cd?/usr/local
$?sudo?mv?./spark-2.4.4-bin-hadoop2.7?./spark
$?sudo?chowm?-R?user_name?./spark
配置环境变量
修改bashrc,配置环境变量,把Spark的bin和sbin路径加入到环境变量,
$?vim?~/.bashrc
export?SPARK_HOME=/usr/local/spark
export?PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export?PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export?PYSPARK_PYTHON=python3
Master节点配置
进入Spark目录,修改spark-env.sh文件,
$?cd?/usr/local/spark
$?vim?./conf/spark-env.sh
在spark-env.sh中添加下面内容,
export?SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop?classpath)
export?HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export?SPARK_MASTER_IP=10.110.113.132
SPARK_MASTER_IP指定的是master节点的IP,后面启动集群Spark时slave节点会注册到SPARK_MASTER_IP,如果这一项不配置,Spark集群则没有可使用资源,
修改slaves文件
配置完master节点信息之后需要配置slave节点信息,slave节点的信息配置在slaves文件里,由于Spark目录下没有这个文件,因此需要首先从slaves.template拷贝一下,
$?cd?/usr/local/spark/
$?cp?./conf/slaves.template?./conf/slaves
然后添加如下内容,
slave0
slave0
slave1
需要注意的是,slaves文件里配置的是运行作业任务的节点(worker),这样的话master的节点只作为控制节点,而不作为工作节点,如果需要把master节点的资源也充分利用起来,需要把master节点也加入到slaves文件中。
slave节点配置
首先在master节点上把配制好的目录进行打包,拷贝到每个slave节点上,
$?cd?/usr/local
$?tar?-zcf?~/spar.tar.gz?./spark
$?scp?~/spark/tar.gz?slave0:~/
$?scp?~/spark/tar.gz?slave1:~/
$?scp?~/spark/tar.gz?slave2:~/
然后在每个slave节点上执行下方命令,把文件解压到相应路径下,
$?sudo?rm?-rf?/usr/local/spark
$?sudo?tar?-zxvf?~/spark.tar.gz?-C?/usr/local
$?sudo?chown?-R?user_name?/usr/local/spark
这样就完成了slave节点的配置。
启动Spark集群
如果要使用HDFS的话,在启动Spark集群前需要先启动Hadoop集群,
$?cd?/usr/local/hadoop/
$?./sbin/start-all.sh
然后进入Spark目录,启动Spark集群,
$?cd?/usr/local/spark
$?./sbin/start-all.sh
需要说明一下,前面配置Hadoop集群是提到,需要配置ssh免密登陆,对于Spark也是同样的道理,如果不配置ssh免密登陆的话,执行./sbin/start-all.sh会提示输入密码。
除了使用./sbin/start-all.sh启动Spark集群外,还可以分开启动,先启动master节点,然后启动slave节点,
$?./sbin/start-master.sh
$?./sbin/start-slaves.sh
如果前面没有完成Master节点配置指定master节点IP,那么执行./sbin/start-slaves.sh时则无法注册master节点的IP,这样集群计算资源则无法使用。除了配置spark-env.sh指定master节点IP外,还可以通过下面方式指定注册的master节点IP,
$?./sbin/start-slave.sh?10.110.113.132
然后分别在master节点和slave节点执行下面命令会看到分别多出一个Master进程和Worker进程。
Spark基本使用
运行原理
如果使用过tensorflow的话,应该对Spark的使用很容易理解,Spark的计算过程和tensorflow有相似之处。
回忆一下,我们在使用tensorflow时需要首先构造一个计算图,然后实例化一个session,然后用session.run来启动图运算。
其实Spark也是这样,RDD(弹性分布式数据集)是Spark中最重要的概念之一,它提供了一个共享内存模型。Saprk的执行过程中主要包括两个动作:转换与行动。其中转换操作就如同tensorflow中的构造计算图的过程,在这个过程中Spark构造一个有向无环图(DAG),但是不进行运算,输入为RDD输出则是一个不同的RDD,当执行行动操作时就如同tensorflow中的session.run,开始执行运算。
Spark中有很多转换操作,例如,
- groupByKey
- reduceByKey
- sortByKey
- map
- filter
- join
- ……
行动操作包括,
- count
- collect
- first
- foreach
- reduce
- take
- ……
运行模式
Spark中通过master url来执行Spark的运行模式,Spark的运行模式包括本地运行、集群运行、yarn集群等,关于Spark master url的指定不同运行模式的含义如下,
URL值运行模式local使用1个线程本地化运行local[K]使用K个线程本地化运行local[*]使用逻辑CPU个数数量的线程来本地化运行spark://HOST:PORT指定集群模式运行Sparkyarn-cluster集群模式连接YARN集群yarn-client客户端模式连接YARN集群mesos://HOST:PORT连接到指定的Mesos集群
示例
下面就以一个简单的示例把前面Hadoop和Spark串联在一起,讲解一下HDFS+Spark的使用方法。
上传数据到HDFS
新建一个hello_world.txt的本地文件,并在文件中添加3行hello world,然后上传至HDFS,
$?cd?/usr/local/hadoop/
$?./bin/hdfs?dfs?-mkdir?-p?/usr/hadoop
$?touch?hello_world.txt
$?echo?-e?"hello?world?\nhello?world?\nhello?world"?>>?hello_world.txt
$?./bin/hdfs?dfs?-put?./hello_world.txt?/usr/hadoop
编写Spark程序
新建一个spark.py的Python文件,
$?vim?spark.py
添加如下内容,
from?pyspark?import?SparkConf
from?pyspark?import?SparkContext
conf?=?SparkConf().setAppName("FirstProject").setMaster("local[*]")
sc?=?SparkContext.getOrCreate(conf)
rdd?=?sc.textFile("hdfs:///master:9000/usr/hadoop/hello_world.txt")
rdd.map(lambda?line:?line).foreach(print)
然后运行程序,
$?python?spark.py
hello?world
hello?world
hello?world
以上就是Spark的集群配置过程和基本使用方法。
大数据开发高薪必备全套资源【免费获取】
Oracle高级技术总监多年精心创作一套完整课程体系【大数据、人工智能开发必看】,全面助力大数据开发零基础+入门+提升+项目=高薪!
「大数据零基础入门」
「大数据架构系统组件」
「大数据全套系统工具安装包」
Java必备工具
大数据必备工具
「大数据行业必备知资讯」
「大数据精品实战案例」
「大数据就业指导方案」
最后说一下的,也就是以上教程的获取方式!
领取方法:
还是那个万年不变的老规矩
1.评论文章,没字数限制,一个字都行!
2.成为小编成为的粉丝!
3.私信小编:“大数据开发教程”即可!
谢谢大家,祝大家学习愉快!(拿到教程后一定要好好学习,多练习哦!)
相关推荐
- oracle数据导入导出_oracle数据导入导出工具
-
关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...
- 继续学习Python中的while true/break语句
-
上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个else解...
- python continue和break的区别_python中break语句和continue语句的区别
-
python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...
- 简单学Python——关键字6——break和continue
-
Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...
- 2-1,0基础学Python之 break退出循环、 continue继续循环 多重循
-
用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...
- Python 中 break 和 continue 傻傻分不清
-
大家好啊,我是大田。今天分享一下break和continue在代码中的执行效果是什么,进一步区分出二者的区别。一、continue例1:当小明3岁时不打印年龄,其余年龄正常循环打印。可以看...
- python中的流程控制语句:continue、break 和 return使用方法
-
Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...
- L017:continue和break - 教程文案
-
continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...
- 作为前端开发者,你都经历过怎样的面试?
-
已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...
- 面试被问 const 是否不可变?这样回答才显功底
-
作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...
- 2023金九银十必看前端面试题!2w字精品!
-
导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。答案:CSS的盒模型是用于布局和定位元素的概念。它由内容区域...
- 前端面试总结_前端面试题整理
-
记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...
- 由浅入深,66条JavaScript面试知识点(七)
-
作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录由浅入深,66条JavaScript面试知识点(一)由浅入深,66...
- 2024前端面试真题之—VUE篇_前端面试题vue2020及答案
-
添加图片注释,不超过140字(可选)1.vue的生命周期有哪些及每个生命周期做了什么?beforeCreate是newVue()之后触发的第一个钩子,在当前阶段data、methods、com...
- 今年最常见的前端面试题,你会做几道?
-
在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...
- 一周热门
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)
