spark scala 常用函式

2021-10-21 19:28:32 字數 1136 閱讀 3471

將多個字串連線成乙個字串並用分隔符隔開

key相同的元素的value進行binary_function的合併操作,如若括號內為(x,y) => x + y則表示對key相同元素value求和

用來丟棄指定列

類似於subtrac,刪掉 rdd 中鍵與 other rdd 中的鍵相同的元素

表一.join(表二,seq(「列名」,「列名」),「jointype」)把表一表二列名相同的鏈結起來

在使用map操作進行切分重組之前可以檢視一下資料型別,然後按照型別格式切分就可以很好的解決格式自帶的括號問題。

.getclass.get******name可以用來判斷乙個資料或者物件的型別。

rdd.flatmap (

row =>

).todf(

"a",

"b",

"c",

"d")

finaldata.withcolumn(

"tmp"

,split(col(

"sims"),

"_")

).select(col(

"recall_id"

),col(

"recall_type"

),concat_ws(

"_",col(

"tmp"

).getitem(0)

,col(

"tmp"

).getitem(1)

).as(

"sim_id"

),col(

"tmp"

).getitem(2)

.as(

"sim"

))

.dropduplicates()括號裡面加要去重的列名

.distinct()

Spark Scala程式設計常用技巧集錦

1 獲取filesystem 1.生成filesystem def gethdfs path string filesystem 2 根據時間戳獲取最新目錄def findcandidate filesystem filesystem,fspath string path 3 讀取最新目錄下全部有效...

Spark Scala 讀取GBK檔案的方法

import org.apache.hadoop.io.import org.apache.hadoop.mapred.textinputformat import org.apache.spark.rdd.rdd import org.apache.spark.object gbktoutf8 d...

python常用函式 python常用函式精講

返回值為bool型別的函式 bool是boolean的縮寫,只有真 true 和假 false 兩種取值 bool函式只有乙個引數,並根據這個引數的值返回真或者假。引數如果預設,則返回false 引數轉換使用標準的邏輯測試表示式 傳入布林型別時,按原值返回 傳入字串時,空字串返回false,否則返回...