百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Hadoop集群部署之大数据平台组件配置——基于CM和CDH

wptr33 2024-12-20 19:03 13 浏览

CDH(Cloudera’s Distribution Including Apache Hadoop)是大数据平台Hadoop的Cloudera发行版。

Cloudera Manager(简称CM)是Cloudera公司开发的一款CDH大数据集群部署运维工具,具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装集群从几天的时间缩短在几小时以内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。

CM提供HDFS,YARN,MapReduce,HBase,Hive等组件,可满足大数据的存储和数据分析、数据仓库、数据挖掘的需要。本文介绍集群部署时CM组件的部署安装。

1 CM组件安装

集群规划


1.1 配置CM运行环境

选择CM 企业版试用版本

在群集安装时,选择方法-》更多选项,删除远程地址。



消除主机正确性检查的警告:

echo 10 > /proc/sys/vm/swappiness

echo never > /sys/kernel/mm/transparent_hugepage/defrag

echo never > /sys/kernel/mm/transparent_hugepage/enabled

1.2 增加report数据库

CDH运行时生成的报告需要使用的数据库。

create database report;

create user 'reportmanager'@'%' identified by 'reportmanager';

grant all on report.* TO 'reportmanager'@'%';

grant all on report.* TO 'reportmanager'@'localhost' identified by 'reportmanager';

1.3 安装HDFS

修改目录,将/etc修改为/home/cdh

注意:HDFS的节点路径不能有777权限,应使用755。



安装完成后进入主界面


1.4 增加HDFS的节点

需要先将主机加入集群。

群集-》HDFS-》实例-》添加角色实例。


自定义-》选择主机,按照向导逐步完成。



1.5 ZooKeeper

规划:3个节点的zk

集群-》操作-》添加服务,选择ZooKeeper。



主机选择01,02,03,部署3个节点的zk



按照向导,默认安装。



1.6 YARN

集群规划


修改目录,将/etc修改为/home/cdh,其他默认


1.7 HBase

集群规划


默认安装



1.8 Hive

集群规划



默认安装



1.9 Impala

集群规划



修改目录,将/etc修改为/home/cdh,其他默认




如果服务未启动,执行重启



1.10 Solr

默认安装Solr,需要HDFS,ZooKeeper支持



1.11 Flume

添加Flume服务,在指定主机(03)安装agent

安装完成后在03主机可以运行flume命令



1.12 Sqoop

添加Sqoop2服务,在指定主机(02)安装agent



安装完成后,在主机运行sqoop命令



sqoop import --connect jdbc:mysql://172.18.0.5:3306/test --username root --password root --table student -m 1



查看结果



1.13 Oozie

添加Oozie服务,在指定主机(01)安装




1.14 HUE


安装loadBalance依赖服务

yum install httpd -y

yum install mod_ssl –y

添加hue服务,在指定主机(01)安装Server,在01,03安装Load Balancer。




1.15 Spark

添加hue服务,在(01)安装Server,在01,02,03安装Gateway。



主机端可以进行spark交互



关于spark gateway不启动和不适用的说明

spark gateway标识的服务器具有spark-shell和spark-submit环境,没有服务,所以显示为灰色不适用。在节点中打开spark-shell正常使用就OK。



1.16 CM、HUE、Oozie时区统一

CM设置时区:CM服务器的时区设置

HUE设置时区:修改为 Asia/Shanghai


相关推荐

Python自动化脚本应用与示例(python办公自动化脚本)

Python是编写自动化脚本的绝佳选择,因其语法简洁、库丰富且跨平台兼容性强。以下是Python自动化脚本的常见应用场景及示例,帮助你快速上手:一、常见自动化场景文件与目录操作...

Python文件操作常用库高级应用教程

本文是在前面《Python文件操作常用库使用教程》的基础上,进一步学习Python文件操作库的高级应用。一、高级文件系统监控1.1watchdog库-实时文件系统监控安装与基本使用:...

Python办公自动化系列篇之六:文件系统与操作系统任务

作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...

14《Python 办公自动化教程》os 模块操作文件与文件夹

在日常工作中,我们经常会和文件、文件夹打交道,比如将服务器上指定目录下文件进行归档,或将爬虫爬取的数据根据时间创建对应的文件夹/文件,如果这些还依靠手动来进行操作,无疑是费时费力的,这时候Pyt...

python中os模块详解(python os.path模块)

os模块是Python标准库中的一个模块,它提供了与操作系统交互的方法。使用os模块可以方便地执行许多常见的系统任务,如文件和目录操作、进程管理、环境变量管理等。下面是os模块中一些常用的函数和方法:...

21-Python-文件操作(python文件的操作步骤)

在Python中,文件操作是非常重要的一部分,它允许我们读取、写入和修改文件。下面将详细讲解Python文件操作的各个方面,并给出相应的示例。1-打开文件...

轻松玩转Python文件操作:移动、删除

哈喽,大家好,我是木头左!Python文件操作基础在处理计算机文件时,经常需要执行如移动和删除等基本操作。Python提供了一些内置的库来帮助完成这些任务,其中最常用的就是os模块和shutil模块。...

Python 初学者练习:删除文件和文件夹

在本教程中,你将学习如何在Python中删除文件和文件夹。使用os.remove()函数删除文件...

引人遐想,用 Python 获取你想要的“某个人”摄像头照片

仅用来学习,希望给你们有提供到学习上的作用。1.安装库需要安装python3.5以上版本,在官网下载即可。然后安装库opencv-python,安装方式为打开终端输入命令行。...

Python如何使用临时文件和目录(python目录下文件)

在某些项目中,有时候会有大量的临时数据,比如各种日志,这时候我们要做数据分析,并把最后的结果储存起来,这些大量的临时数据如果常驻内存,将消耗大量内存资源,我们可以使用临时文件,存储这些临时数据。使用标...

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...

Python 开发工程师必会的 5 个系统命令操作库

当我们需要编写自动化脚本、部署工具、监控程序时,熟练操作系统命令几乎是必备技能。今天就来聊聊我在实际项目中高频使用的5个系统命令操作库,这些可都是能让你效率翻倍的"瑞士军刀"。一...

Python常用文件操作库使用详解(python文件操作选项)

Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能...

11. 文件与IO操作(文件io和网络io)

本章深入探讨Go语言文件处理与IO操作的核心技术,结合高性能实践与安全规范,提供企业级解决方案。11.1文件读写11.1.1基础操作...

Python os模块的20个应用实例(python中 import os模块用法)

在Python中,...