微前端架构如何改变企业的开发模式与效率提升
664
2022-10-08
Spark004-rdd分区逻辑
Intro
rdd是怎么做分区切分的,即怎么把数据存放到各个分区中,直接看代码。
Code
import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().master("local[1]").getOrCreate()val dataRDD = spark.sparkContext.makeRDD(List(0,1, 2, 3, 4,5,), 4)dataRDD.foreachPartition(part => { println("---- partitions -----") println(part.toArray.mkString(",")) })
---- partitions -----0---- partitions -----1,2---- partitions -----3---- partitions -----4,5
程序执行结果如上,发现分组有些奇怪,两个元素的分区,不是在最前,也不是在最后。下面看下分区逻辑。
分区逻辑
def positions(length: Long, numSlices: Int): Iterator[(Int, Int)] = { (0 until numSlices).iterator.map { i => val start = ((i * length) / numSlices).toInt val end = (((i + 1) * length) / numSlices).toInt (start, end) } }
核心代码如上,具体逻辑:
length:rdd长度,numSlice:分区数按照公式计算生产numSlice个元组几个元组前后相连,相当于把length切分成各个分区
打个比方,方便理解,有一根线段,长为length,切(numSlice-1)次,每次切分点为((i * length) / numSlices).toInt 上例中,length=6,numSlice=4:
第一刀,切在floor(1*6/4)=1处,索引所于[0,1)的在一个分区,即0第二刀,切在floor(2*6/4)=3处,索引所于[1,3)的在一个分区 ,即1、2第三刀,切在floor(3*6/4)=4处,索引所于[3,4)的在一个分区 ,即3第四刀,切在floor(4*6/4)=6处,索引所于[4,6)的在一个分区 ,即4、5
2021-11-12 于南京市江宁区九龙湖
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~