對於sortBy運算元的一些理解

2021-09-03 02:48:42 字數 578 閱讀 1615

package day03

import org.apache.spark.

/** * ranagepartitioner採用的是"水塘抽樣"演算法,可以對資料進行相對均勻的分配

* 原理是,.在分配之前對資料進行抽樣

* * 與hashpartitioner不同的是,hashpartitioner是根據key取hashcode值進行分割槽,但是這種分割槽方式

* 不能均勻的分配資料,是spark的預設分割槽方式

* * ranagepartitioner:可以根據範圍進行分割槽,可以均勻的分配資料,分區內有序,全域性無序

* 如果需要實現全域性有序,需要將資料收集到driver端進行輸出

*/object ranagepartitioner , ele:$")it}

//收集到driver端

對於切片的一些理解

使用技巧 type struct 乙個切片是由資料指標加上長度和容量組成的,類似與c 中的vector。var a int 等價於nil b int 表示乙個空的切片,不等於nil c int len,cap都為3的切片 d c 2 cap為3,len為2。與c共享一片記憶體位址 e c 0 2 c...

對於java 集合的一些理解

list set繼承自collection儲存引用型別 且只能乙個乙個儲存 arraylist linkedlist vector 都是繼承自list arraylist linkedlist初始化為10 擴容後為1.5倍 vector 為2倍 arraylist 底層採用的資料結構為陣列儲存元素,...

對於多執行緒的一些理解

實現多執行緒的兩種方法 繼承thread類 實現runnable介面 jdk1.5之後提供了乙個心得callable介面 在啟動多執行緒的時候必須通過start 方法,而不能直接呼叫run 方法 原因 先來看下start 方法在thread類中的定義 public synchronized void...