spark專案中發現從hive讀取的資料,dataframe無法進行reparation的設定,非得轉成rdd才可以???
後來經過查閱資料和測試,原來是submit中設定的引數問題:
--conf spark.sql.adaptive.enabled=true 謹慎使用
原因:由於spark.sql.adaptive.enabled設定成true就是開啟動態分割槽了,自定義分割槽數將不管用;
我們設定成 false 後自定義分割槽數就管用了!!!
spark.sql.adaptive.enabled; // 是否開啟調整partition功能,如果開啟,spark.sql.shuffle.partitions設定的partition可能會被合併到乙個reducer裡執行
spark.sql.adaptive.shuffle.targetpostshuffleinputsize; //開啟spark.sql.adaptive.enabled後,兩個partition的和低於該閾值會合併到乙個reducer
spark.sql.adaptive.minnumpostshufflepartitions; // 開啟spark.sql.adaptive.enabled後,最小的分割槽
Spark DataFrame中的join型別
spark dataframe中join與sql很像,都有inner join,left join,right join,full join 那麼join方法如何實現不同的join型別呢?看其原型 def join right dataframe,usingcolumns seq string jo...
spark dataframe筆記(鏈結彙總)
spark dataframe筆記 dataframe行轉列 spark dataframe筆記 對dataframe一列值保留4位小數 spark dataframe筆記 按照dataframe某一列的數值排序,並增加一列索引 2 降序排 spark dataframe筆記 按照dataframe...
Spark DataFrame關於資料常用操作
sql語法 1.檢視全表資料 dataframe.show 2.檢視部分字段資料 有4種方法 1 dataframe.select 欄位名稱 show 2 dataframe.select 欄位名稱 show 推薦 3 dataframe.select col 欄位名稱 show 4 datafra...