package day03
import org.apache.spark.
/** * ranagepartitioner採用的是"水塘抽樣"演算法,可以對資料進行相對均勻的分配
* 原理是,.在分配之前對資料進行抽樣
* * 與hashpartitioner不同的是,hashpartitioner是根據key取hashcode值進行分割槽,但是這種分割槽方式
* 不能均勻的分配資料,是spark的預設分割槽方式
* * ranagepartitioner:可以根據範圍進行分割槽,可以均勻的分配資料,分區內有序,全域性無序
* 如果需要實現全域性有序,需要將資料收集到driver端進行輸出
*/object ranagepartitioner , ele:$")it}
//收集到driver端
對於切片的一些理解
使用技巧 type struct 乙個切片是由資料指標加上長度和容量組成的,類似與c 中的vector。var a int 等價於nil b int 表示乙個空的切片,不等於nil c int len,cap都為3的切片 d c 2 cap為3,len為2。與c共享一片記憶體位址 e c 0 2 c...
對於java 集合的一些理解
list set繼承自collection儲存引用型別 且只能乙個乙個儲存 arraylist linkedlist vector 都是繼承自list arraylist linkedlist初始化為10 擴容後為1.5倍 vector 為2倍 arraylist 底層採用的資料結構為陣列儲存元素,...
對於多執行緒的一些理解
實現多執行緒的兩種方法 繼承thread類 實現runnable介面 jdk1.5之後提供了乙個心得callable介面 在啟動多執行緒的時候必須通過start 方法,而不能直接呼叫run 方法 原因 先來看下start 方法在thread類中的定義 public synchronized void...