百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

基于Spark分布式并行处理技术,美林数据有效提升数据处理能力

wptr33 2025-02-18 13:40 30 浏览

由于Spark在使用JDBC方式读取关系型模型数据的时候,默认采用单线程任务执行。在数据量较大时,经常发现内存溢出、性能低的问题。在扩大内存读取后进行重分区,又会消耗时间,浪费资源。
因此,开发并发读取关系型模型数据,可以有效提高任务处理并发度,减少单个任务的数据处理量,进而提升处理效率。

分布式并发处理优化


(一)总体思路
关系型模型并发读取首先要选取分区字段,按照字段类型和分区个数确定并发分区间隔的key值。假设key值可以将模型数据均匀划分成多个逻辑分区,根据key值构成查询条件将模型数据进行并发读取。其中的关键点包括:
1、分区字段的选取规则
(a)初步确定模型中第一个字符或者数值型字段。
2、分区个数
(a)给出默认分区个数,测试读写后按照1000w数据量给出建议的资源配比和默认分区个数。
(b)允许用户进行自定义配置。
3、静态分区策略
(a)数值型:转换成字符并逆序,按照数值位取值的字符范围和分区个数确定并发分区间隔的key值,进行多分区构造。
(b)字符型:逆序后按照单字符取值范围和分区个数确定并发分区间隔的key值,进行多分区构造。
(二)总体处理流程
总体处理流程如图所示:

分区个数合法校验及处理规则:分区个数合法校验及处理规则为分区个数必须在[1,range]范围内,超出下限按照一个分区处理,超出上限按照上限range处理。支持的最大分区个数(range)字符型为64的4次方,数值型为10000。
(三)阈值范围并发读取
阈值范围并发读取适合分区字段为数值类型的模型。
关键参数:
partitionColumn:分区字段名称
lowerBound:取值下限
upperBound:取值上限
numPartitions:分区个数
(四)默认并发读取
默认并发读取适应于字符和数值类型的分区字段,按照类型的取值范围获取近似均分的过滤条件,将数据按照条件分配到不同的逻辑分区中,并以并发执行来提升数据读取效率。
1、模型并发读取
模型并发读取设计按照分区个数不同采用不同的接口调用方式。
?分区个数为1

val url = "jdbc:mysql://host:3306/test"
val prop = new java.util.Properties
prop.setProperty("user", "***")
prop.setProperty("password", "***")
prop.setProperty("driver", "com.mysql.jdbc.Driver")
val df = spark.sqlContext.read.jdbc(url,"tname",prop)

url为数据库连接串信息。
tname为查询的表名,也支持查询条件,形如:

(select * from ronghe_mysql_bigint_50wwhere cast(RY_YGGH as UNSIGNED) > 250000)tmp

prop为数据库连接信息、用户名、密码、driver等配置信息。
?分区个数大于1

val url = "jdbc:mysql://host:3306/test"
val prop = new java.util.Properties
prop.setProperty("user", "***")
prop.setProperty("password", "***")
prop.setProperty("driver", "com.mysql.jdbc.Driver")
val df = spark.sqlContext.read.jdbc(url,"tname",predicates,prop)

多分区并发读取比分区个数为1的参数增加了分区预划分条件。
其中,predicates为分区预划分条件,Array[String],读取时按照每个元素内容过滤数据。
2、分区预划分条件
分区预划分条件是由多个条件构成的字符串数据。

val predicates = Array[String](
" cols < '3'",
" cols >= '3' and cols <'6'",
" cols >= '6'
)

分区预划分条件包括分区条件列和比对值。分区条件值由选取的分区字段及其操作构成,比对值即为静态分区间隔值。考虑到有序数值型、字符型在业务场景中使用一般高位相似低位差异明显,因此对分区字段进行逆序处理。
假设分区字段为splitCol。
splitCol为数值类型时:分区条件列cols 为reverse(cast(splitColas char))。
splitCol为字符类型时:分区条件列cols 为reverse(splitCol)。
假设分区间隔值为splitKeys(Array[String]),长度为L。对比值按照左闭右开的方式构造。
第一个条件为cols < splitKeys(0);
第二个条件为cols >= splitKeys(0) and cols < splitKeys(1);
第i个条件为cols >= splitKeys(i-2)and cols < splitKeys(i-1);
最后一个条件为cols >= splitKeys(L-1)。
3、分区个数
模型并发读取设计,按照四位字符来表示分区间隔值。那么,可表示的值范围即为每位可取的值个数的四次方。
设定字符每位可取64个,数字可取的值个数10,即支持的最大分区个数(range):字符型(64的4次方)、数值型(10000)。
4、静态分区间隔值获取
实现思路
按照字段类型的字符范围找到分区间隔值,即找到间隔值所表示范围的近似均分位置点。
假定分区间隔值使用四位字符表示。(设N个分区)
数字类型字符间隔值寻找思路:
(1)数字取值[0,9](暂不考虑小数点,按位将被分到小于0对应的分区),表示范围:1, 2, 3,……,9998,9999。
(2)找到每个分片的大小范围S,表示范围个数除以分区个数(10^4/(N-1))。
(3)S-1,2S-1,3S-1,……,(N-1)*S-1即为可以将四位数均分的间隔值。
字符类型间隔值寻找思路(取值范围64个字符,优化算法):

(1)按照常用程度,将间隔值每位字符取值范围确定为:Array('.', '0', '1', '2', '3','4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J','K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p','q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '~')
(2)不常用字符将被归到最临近的一个分区,中文字符将被归到最后一个分区,避免不常用字符的独占一个分区情况,以减少对资源的消耗。
(3)找到每个分段的大小范围S,表示范围个数除以分区个数(64^4/(N-1))
(4)同数字字符间隔值,将字符间隔值理解成64进制的数字(可以采用移位运算快速获取),那么S-1,2S-1,3S-1,……,(N-1)*S-1就是将四位字符近似均分的数字,每位对应的字符间隔值数组中的字符构成的字符串即为间隔值。

十进制转为64进制,以十进制数keyInt为例,tmp为转换后结果数组:digitsNum为表示位数4。

for (j <- 1 to digitsNum) {
tmp(digitsNum - j) = charactors(keyInt & (charLength - 1))
keyInt >>= 6
}

字符类型间隔值寻找思路(取值范围任意个字符,通用算法):
与字符类型字符间隔值总体寻找思路一致,但不受取值范围个数的限制。
(1)按照常用程度,将间隔值每位字符取值范围确定为Array(……),元素个数为m。
(2)不常用字符将被归到最临近的一个分区,中文字符将被归到最后一个分区,避免不常用字符的独占一个分区情况,以减少对资源的消耗。
(3)找到每个分段的大小范围S,表示范围个数除以分区个数(m^4/(N-1))。
(4)同数字字符间隔值,将字符间隔值理解成m进制的数字,那么S-1,2S-1,3S-1,……,(N-1)*S-1就是将四位字符近似均分的数字,这些数字对应的字符串即为均分字符范围的间隔值(数字每一位对应的字符间隔值数组中的字符构成的字符串即为间隔值)。
十进制转为m进制,以十进制数keyInt为例,tmp为转换后结果数组:digitsNum为表示位数4。

for (j <- 1 to digitsNum) {
tmp(digitsNum - j) = charactors(keyInt % m)
keyInt = math.floor(keyInt / m).toInt
}


测试结果

在数据资产平台中,以50万、1000万的数据进行同步性能测试,测试结果如下表:


总结与展望

按照分区字段并发读取数据进行处理能够有效提升数据的处理能力,但受分区字段取值范围、数据分布情况的影响,效果不尽相同,后续将对分区策略进行持续优化,以达到适应各种业务场景的性能要求。

相关推荐

oracle数据导入导出_oracle数据导入导出工具

关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...

继续学习Python中的while true/break语句

上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个else解...

python continue和break的区别_python中break语句和continue语句的区别

python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...

简单学Python——关键字6——break和continue

Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...

2-1,0基础学Python之 break退出循环、 continue继续循环 多重循

用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...

Python 中 break 和 continue 傻傻分不清

大家好啊,我是大田。今天分享一下break和continue在代码中的执行效果是什么,进一步区分出二者的区别。一、continue例1:当小明3岁时不打印年龄,其余年龄正常循环打印。可以看...

python中的流程控制语句:continue、break 和 return使用方法

Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...

L017:continue和break - 教程文案

continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...

作为前端开发者,你都经历过怎样的面试?

已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...

面试被问 const 是否不可变?这样回答才显功底

作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...

2023金九银十必看前端面试题!2w字精品!

导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。答案:CSS的盒模型是用于布局和定位元素的概念。它由内容区域...

前端面试总结_前端面试题整理

记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录由浅入深,66条JavaScript面试知识点(一)由浅入深,66...

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

添加图片注释,不超过140字(可选)1.vue的生命周期有哪些及每个生命周期做了什么?beforeCreate是newVue()之后触发的第一个钩子,在当前阶段data、methods、com...

今年最常见的前端面试题,你会做几道?

在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...