百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

Spark3.x的Cache能不能让我在2022好好睡觉

wptr33 2024-12-20 19:04 11 浏览

前言

一转眼已经是2022年1月9日了,跨年的节点会发生很多系统性的大事,对于普通人来讲就是跨过一个新的公元年2021->2022,对于生产系统来说,尤其是离线系统,需要发生年结,虽然期望平稳度过,但是实际情况总归没那么太平,所以每次到了这种节点,我们都是第一个flag,新的一年,好好睡觉!!

2022我就想好好睡觉

Spark1.X

Spark1.x的时代,大部分工作上解决内存计算模式下动不动就OOM那种让人抓狂的事情,需要半夜爬起来加内存

Spark2.x

Spark2.x版本,尤其是SparkSQL的引入,扩大了使用场景,自动化的执行计划经常是不对的,需要半夜爬起来手工改执行计划

Spark3.x

到了Spark3.x时代,就在当下,只能一些展望吧,小博客可以带来一些改善睡眠带有一些舒适度(吐槽+抓狂+有点小改善)的内容^^

Spark Cache中 Ugly的执行计划带来的抓狂问题(重点批判)

”Cache Table可以把数据放在内存,这段数据在未来使用的时候可以复用,减少IO“,这个是最初吸引很多同学去使用Cache表的骚操作,这个带来一系列抓狂问题:

1、乱用Cache

大部分同学就是直接使用sql,不是很懂得去控制Cache的大小,大量疯狂的大表也往内存里面怼,实际也装不下,反而导致数据溢出到磁盘上面了

2、想当然地以为快而已

我们看到那种问题SQL,下游其实没有所谓的复用,就是存粹的,读取一次Cache一次,然后下游的作业再从内存表中读取一次

3、凌晨资源情况不一样

凌晨起夜的时候,因为平台的资源会整体拉到一个高度,所以到了凌晨的时候没有那么多内存来霍霍,最后白天可以正常执行的就不能执行了

4、没关注真正慢的原因

磁盘读取一次其实也没那么慢,很多任务慢在Shuffle上,cache一次只能是添堵

5、调试带来的困难

一方面,我们作为平台同学来说,是去看人家的任务,逻辑也没那么熟悉,另一方面,Spark2.X的UI 不显示哪个表被读取了

InMemoryTableScan压根看不出啥东西,处理问题起来很痛苦

一些改进的措施

Cache别乱用

我们在很多情况下发现,大部分任务慢发生在Shuffle阶段,当然在Spark3.x中对Shuffe本身也做了很多优化,需要找准瓶颈

平台侧的解读取IO思路

实际发现我们真要做分布式Cache,是直接把数据底层Cache起来,上层并不感知,目前效果比较好的做法是走的Alluxio,我们会把表的localtion改掉,而且也是平台视角去观测读取的热点数据

重复读落地表来得更有效

实际的重复读读,其实是在夸任务的情况读取比较多,而且是发生在跨集群带来的打满带宽问题,集群内部的IO读取很少打爆的,平台的优化策略是在不同的cluster上作replication操作

Spark3.x带来优化Cache Table展示

后记

所以说2022真能好好睡觉么?

相关推荐

VPS主机搭建Ghost环境:Nginx Node.js MariaDB

Ghost是一款个人博客系统,它是使用Node.js语言和MySQL数据库开发的,同时支持MySQL、MariaDB、SQLite和PostgreSQL。用户可以在支持Node.js的服务器上使用自己...

centos7飞速搭建zabbix5.0并添加windows、linux监控

一、环境zabbix所在服务器系统为centos7,监控的服务器为windows2016和centos7。二、安装zabbix官方安装帮助页面...

Zabbix5.0安装部署

全盘展示运行状态,减轻运维人员的重复性工作量,提高系统排错速度,加速运维知识学习积累。1.png...

MariaDB10在CentOS7系统下,迁移数据存储位置

背景在CentOS7下如果没有默认安装MySQL数据库,可以选择安装MariaDB,最新的版本现在是10可以选择直接yum默认安装的方式yum-yinstallmariadbyum-yi...

frappe项目安装过程

1,准备一台虚拟机,debian12或者ubuntusever22.04.3可以用virtualbox/qemu,或者你的超融合服务器安装一些常用工具和依赖库我这里选择server模式安装,用tab...

最新zabbix一键安装脚本(基于centos8)

一、环境准备注意:操作系统必须是centos8及以上的,因为我配的安装源是centos8的。并且必须连接互联网,脚本是基于yum安装的!!!...

ip地址管理之phpIPAM保姆级安装教程 (原创)

本教程基于Ubuntu24.04LTS,安装phpIPAM(最新稳定版1.7),使用Apache、PHP8.3和MariaDB,遵循最佳实践,确保安全性和稳定性。一、环境准备1....

centos7傻瓜式安装搭建zabbix5.0监控服务器教程

zabbix([`zaebiks])是一个基于WEB界面的提供分布式系统监视...

zabbix7.0LTS 保姆级安装教程 小白也能轻松上手安装

系统环境:rockylinux9.4(yumupdate升级到最新版本)数据库:mariadb10.5.22第一步:关闭防火墙和selinux使用脚本关闭...

ubuntu通过下载安装包安装mariadb10.4

要在Ubuntu18.04上安装MariaDB10.4.34,用的是那个tar.gz的安装包。步骤大概是:...

从0到1:基于 Linux 快速搭建高可用 MariaDB Galera 集群(实战指南)

在企业生产环境中,数据库的高可用性至关重要。今天带你从0到1,手把手在Linux系统上快速搭建一个高可用MariaDBGaleraCluster,实现数据库同步复制、故障自动恢复,保障业务...

Windows 中安装 MariaDB 数据库

mariadb在Windows下的安装非常简单,下载程序双击运行就可以了。需要注意:mariadb和MySQL数据库在Windows下默认是不区分大小写的,但是在Linux下是区分...

SQL执行顺序(SqlServer)

学习SQL这么久,如果突然有人问你SQL的执行顺是怎么样的?是不是很多人会觉得C#、JavaScript都是根据编程顺序来处理的,那么SQL也是根据编程顺序来执行的吗?...

C# - StreamWriter与StreamReader 读写文件 101

读写文本文件的方式:1)File静态类的File.ReadAllLines();与File.WriteAllLines();方法进行读写...

C#中的数组探究与学习

C#中的数组一般分为:...