1 parallelize 函式
val paraadd= sc.parallelize(array(1 to 100))2 外部儲存建立操作
val lines: rdd[string] = sc.textfile("user.log")
除錯**
// 建立配置檔案物件val conf: sparkconf = new sparkconf()
// 配置應用程式名稱
//window除錯引數
conf.set("spark.testing.memory", "2147480000")
conf.set("spark.driver.host","localhost")
// 配置執行模式,idea下必須為local模式
// local是呼叫乙個執行緒來執行該job
// local[2]是呼叫兩個執行緒來執行該job
// local[*]是呼叫當前所有空閒的執行緒來執行該job
conf.setmaster("local")
// spark的上下文物件,也稱為集群的入口類
val sc: sparkcontext = new sparkcontext(conf)
//parallelize 函式
val paraadd= sc.parallelize(array(1 to 100))
// 獲取外部資料
val lines: rdd[string] = sc.textfile("user.log")
RDD轉換成DataFrame的兩種方式
spark sql支援兩種不同的方式將rdd轉換為dataframe。第一種是使用反射來推斷包含特定型別物件的rdd的模式,這種基於反射的方式可以提供更簡潔的 如果在編寫spark應用程式時,已經明確了schema,可以使用這種方式。第二種方式是通過可程式設計介面來構建schema,然後將其應用於現...
執行緒建立的兩種方式
建立執行緒的兩種方式 1.繼承thread並重寫方法,在run方法中定義執行緒要執行的任務 class mythread extends thread public class threaddemo1 2.實現runable介面並重寫run方法 class myrunnable implements...
陣列的兩種建立方式
var 陣列名 new array 定義了乙個空 的陣列 var array1 new array 定義了乙個長度為6的陣列 var array2 new array 6 輸出陣列的每個值都是 undefined console.log array2 可以直接定義陣列的具體值 var array3 ...