文章回顾

理论

大数据框架原理简介

大数据发展历程及技术选型

实践

搭建大数据运行环境之一

搭建大数据运行环境之二

本地MAC环境配置

CPU数和内存大小

查看CPU数

sysctl machdep.cpu

# 核数为4
machdep.cpu.core_count: 4    
# cpu数量为8个，使用了超线程技术：四核八线程
machdep.cpu.thread_count: 8

内存大小

top -l 1 | head -n 10 | grep PhysMem

PhysMem: 16G used (10G wired), 67M unused.

在本地开了3个虚拟机centos服务器

虚拟机服务器配置

服务器1 192.168.84.128 4核4G
服务器2 192.168.84.131 1核2G
服务器3 192.168.84.132 1核2G

因为服务器1上的按照的软件比较多 所以这样分配核数和内存 可以将大数据环境运行起来

虚拟机软件给一个虚拟机分配核数和内存的方式

通过Sqoop查看Mysql数据库

/usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://hadoop001:3306/?useSSL=false --username root --password 123456

在Hive中创建测试表

创建test表

CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;

创建test_out表

CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

hive删除表

使用truncate仅可删除内部表数据，不可删除表结构

truncate table 表名
（truncate可删除所有的行，但是不能删除外部表）

使用shell命令删除外部表

hdfs -dfs -rm -r 外部表路径

使用 drop 可删除整个表

drop table 表名

查看hive表

查询hive所有表

hive -e "show databases ;" > databases.txt

cat databases.txt
default

指定default数据库

./hive -d default

在Mysql中创建测试表

创建test

DROP TABLE IF EXISTS `test`;
CREATE TABLE `test` (
  `id` int(10) DEFAULT NULL,
  `uid` int(10) DEFAULT NULL,
  `title` varchar(100) DEFAULT NULL,
  `name` varchar(100) DEFAULT NULL,
  `status` int(10) DEFAULT NULL,
  `time` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

插入3条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (1, 1, '第一条数据', '平凡人笔记', 1, '2021-01-11 16:30:02');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (2, 2, '第二条数据', '孟凡霄', 2, '2021-01-11 16:30:20');

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (3, 3, '第三条数据', '平凡人', 3, '2021-01-11 16:30:41');

创建test_out

DROP TABLE IF EXISTS `test_out`;
CREATE TABLE `test_out` (
  `name` varchar(100) DEFAULT NULL,
  `count` int(10) DEFAULT NULL,
  `time` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Mysql导入Hive

/usr/local/sqoop/bin/sqoop import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--delete-target-dir \
--num-mappers 1 \
--hive-import \
--hive-database default \
--hive-table test \
--direct

虽然有报错 

ERROR bonecp.BoneCP: Unable to start/stop JMX
java.security.AccessControlException: access denied ("javax.management.MBeanTrustPermission" "register")

但不影响导入结果

查看hive表

说明从Mysql导入hive成功

增量数据定时导入

mysql test表增加一条测试数据

INSERT INTO `test`.`test`(`id`, `uid`, `title`, `name`, `status`, `time`) VALUES (4, 4, '第四条数据', '笔记', 4, '2021-01-11 16:50:00');

删除指定job

/usr/local/sqoop/bin/sqoop job --delete testJob

添加一个增量更新的job

/usr/local/sqoop/bin/sqoop job --create testJob -- \
import \
--driver com.mysql.jdbc.Driver \
--connect jdbc:mysql://hadoop001:3306/test?useSSL=false \
--username root \
--password 123456 \
--table test \
--check-column time \
--incremental lastmodified \
--last-value '2018-08-09 15:30:29' \
--merge-key id \
--fields-terminated-by '\001' \
--lines-terminated-by '\n' \
--num-mappers 1 \
--target-dir /user/hive/warehouse/test

执行job

/usr/local/sqoop/bin/sqoop job --exec testJob

查看数据已被更新

查看job

/usr/local/sqoop/bin/sqoop job --show testJob

通常情况可以结合sqoop job和crontab等任务调度工具实现相关业务

Hive导入Hive


cd /usr/local/hive/bin

hive

# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

# 或者

INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

查看统计结果

统计成功

Hive导入Mysql


# hive的default库中的test_out表数据导出到mysql的test库test_out表

/usr/local/sqoop/bin/sqoop export \
--connect "jdbc:mysql://hadoop001:3306/test?useUnicode=true&characterEncoding=UTF-8&useSSL=false&serverTimezone=Asia/Shanghai" \
--username root \
--password 123456 \
--input-null-string '\\N' \
--input-null-non-string '\\N' \
--input-fields-terminated-by '\t' \
--table test_out \
--hcatalog-database default \
--hcatalog-table test_out \
-m 1;

导出成功

可能遇到的问题及注意点

hive访问mysql数据库权限问题

服务器1上hive访问mysql如果报错

Access denied for user 'root'@'192.168.84.128' (using password: YES)

mysql需要授权访问者

GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.84.128' IDENTIFIED BY '123456' WITH GRANT OPTION;

flush privileges;

在namenode上执行

报错：

RemoteException(org.apache.hadoop.ipc.StandbyException):
Operation category READ is not supported in state standby

原因：

服务器1是namenode节点 active 状态
服务器2是secondNamenode节点是 standby状态

执行命令要在active的namenode才可以

只有namenode才会有webui 50070端口

服务器1（192.168.84.128）上安装namenode 有50070端口
服务器2（192.168.84.131）上安装secondNamenode 有50070端口
服务器3（192.168.84.132）上没有安装namenode 没有

后记

接下来研究的方向：

1、hive运行原理
2、弄一笔数据走一下搭建好的大数据运行环境
3、10亿数据如何分库分表存储Mysql
4、10亿数据同步到hive
5、flink数据如何求交

Mysql和Hive之间通过Sqoop进行数据同步

文章回顾

理论

实践

本地MAC环境配置

CPU数和内存大小

虚拟机服务器配置

通过Sqoop查看Mysql数据库

在Hive中创建测试表

创建test表

创建test_out表

hive删除表

查看hive表

在Mysql中创建测试表

Mysql导入Hive

增量数据定时导入

Hive导入Hive

Hive导入Mysql

可能遇到的问题及注意点

后记

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

《循环(for/while)》（循环while语句）

Python 中 break 和 continue 傻傻分不清

西门子博途SCL高级语言之FOR循环（西门子博途for循环语句编程）

oracle数据导入导出_oracle数据导入导出工具

2-1，0基础学Python之 break退出循环、 continue继续循环多重循

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

Mysql和Hive之间通过Sqoop进行数据同步

文章回顾

理论

实践

本地MAC环境配置

CPU数和内存大小

虚拟机服务器配置

通过Sqoop查看Mysql数据库

在Hive中创建测试表

创建test表

创建test_out表

hive删除表

查看hive表

在Mysql中创建测试表

Mysql导入Hive

增量数据定时导入

Hive导入Hive

Hive导入Mysql

可能遇到的问题及注意点

后记

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

《循环(for/while)》（循环while语句）

Python 中 break 和 continue 傻傻分不清

西门子博途SCL高级语言之FOR循环（西门子博途for循环语句编程）

oracle数据导入导出_oracle数据导入导出工具

2-1，0基础学Python之 break退出循环、 continue继续循环 多重循

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

2-1，0基础学Python之 break退出循环、 continue继续循环多重循