大資料學習之Spark（1）

2019.09.10

1、 spark的特點

2、總體架構

包括：

3、常見術語

兩個抽象部件：sparkcontext、rdd

必須建立乙個sparkcontext類例項，且只能擁有乙個啟用的sparkcontext類例項

1、最簡便方法
val sc = new sparkcontext()
2、建立sparkcontext類例項，設定配置資訊
val sc = new sparkcontext(config)

表示關於分割槽資料元素的集合，spark中定義的抽象類。

特點：<1> parallelize：本地scala集合建立rdd例項（重分割槽、重分布，返回乙個rdd）。

//從儲存於hdfs上的乙個檔案或目錄中讀取多個檔案，建立rdd例項 val rdd = sc.textfile("hdfs://namenode:9000/path/to/file-or-directory") //下面的建立方法可以讀取壓縮檔案中的資料，引數中可以存在萬用字元，用於從乙個目錄中讀取多個檔案 val rdd = sc.textfile("hdfs://namenode:9000/path/to/directory/*.gz") //textfile第二個引數是乙個可選引數，用於指定分割槽個數，spark預設為每乙個檔案分塊建立乙個分割槽，可以設定成更大數字，但不可以設定的比檔案分塊數小

val rdd = sc.wholetextfiles("path/to/my-data/*txt")

<4> sequencefile：從sequencefile檔案中獲取鍵值對資料，返回乙個鍵值對型rdd例項。

//使用時需要檔名，檔案中鍵和值各自的型別
val rdd = sc.sequencefile[string,string]("some-file")

大資料學習之Spark（1）

spark官方文件 Spark（1）寫在前面

spark 1 架構設計基本流程

大資料之spark學習記錄一 Intro

大資料學習之Spark（1）

spark官方文件 Spark（1） 寫在前面

spark 1 架構設計 基本流程

大資料之spark學習記錄一 Intro

相關推薦

spark官方文件 Spark（1）寫在前面

spark 1 架構設計基本流程