Spark004-rdd分区逻辑

网友投稿 664 2022-10-08

Spark004-rdd分区逻辑

Spark004-rdd分区逻辑

Intro

rdd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。

Code

import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().master("local[1]").getOrCreate()val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4)dataRDD.foreachPartition(part => { println("---- partitions -----") println(part.toArray.mkString(",")) })

---- partitions -----0---- partitions -----1,2---- partitions -----3---- partitions -----4,5

程序执行结果如上,发现分组有些奇怪,两个元素的分区,不是在最前,也不是在最后。下面看下分区逻辑。

分区逻辑

def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = { (0 until numSlices).iterator.map { i => val start = ((i * length) / numSlices).toInt val end = (((i + 1) * length) / numSlices).toInt (start, end) } }

核心代码如上,具体逻辑:

length:rdd长度,numSlice:分区数按照公式计算生产numSlice个元组几个元组前后相连,相当于把length切分成各个分区

打个比方,方便理解,有一根线段,长为length,切(numSlice-1)次,每次切分点为​​((i * length) / numSlices).toInt​​ 上例中,length=6,numSlice=4:

第一刀,切在floor(1*6/4)=1处,索引所于[0,1)的在一个分区,即0第二刀,切在floor(2*6/4)=3处,索引所于[1,3)的在一个分区 ,即1、2第三刀,切在floor(3*6/4)=4处,索引所于[3,4)的在一个分区 ,即3第四刀,切在floor(4*6/4)=6处,索引所于[4,6)的在一个分区 ,即4、5

2021-11-12 于南京市江宁区九龙湖

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:微信小程序 地图map详解及简单实例(微信小程序开发)
下一篇:Spark005---map、mapPartitions
相关文章

 发表评论

暂时没有评论,来抢沙发吧~