2019.09.10
1、 spark的特點
2、總體架構
包括:
3、常見術語
兩個抽象部件:sparkcontext、rdd
必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項
1、最簡便方法
val sc = new sparkcontext()
2、建立sparkcontext類例項,設定配置資訊
val sc = new sparkcontext(config)
表示關於分割槽資料元素的集合,spark中定義的抽象類。
特點:<1> parallelize:本地scala集合建立rdd例項(重分割槽、重分布,返回乙個rdd)。
//從儲存於hdfs上的乙個檔案或目錄中讀取多個檔案,建立rdd例項
val rdd = sc.textfile("hdfs://namenode:9000/path/to/file-or-directory")
//下面的建立方法可以讀取壓縮檔案中的資料,引數中可以存在萬用字元,用於從乙個目錄中讀取多個檔案
val rdd = sc.textfile("hdfs://namenode:9000/path/to/directory/*.gz")
//textfile第二個引數是乙個可選引數,用於指定分割槽個數,spark預設為每乙個檔案分塊建立乙個分割槽,可以設定成更大數字,但不可以設定的比檔案分塊數小
val rdd = sc.wholetextfiles("path/to/my-data/*txt")
<4> sequencefile:從sequencefile檔案中獲取鍵值對資料,返回乙個鍵值對型rdd例項。
//使用時需要檔名,檔案中鍵和值各自的型別
val rdd = sc.sequencefile[string,string]("some-file")
spark官方文件 Spark(1) 寫在前面
原始碼環境說明 spark 2.2.0 clustermanager yarn hadoop 2.6.5 spark版本進入2.0.0以後更新速度明顯放緩,最新的2.4.0版本穩定性有待驗證,投入生產環境為時尚早且更新的新特性較少,所以選擇了2.2.0版本作為投稿的原始碼環境。原始碼的分析順序按照s...
spark 1 架構設計 基本流程
spark執行架構包括 1 集群資源管理器 cluster manager 2 執行作業任務的工作節點 worker node 3 每個應用的任務控制節點 driver 和每個工作節點上負責具體任務的執行程序 executor 其中,集群資源管理器可以是spark自帶的資源管理器,也可以是yarn或...
大資料之spark學習記錄一 Intro
1.x 版本 從架構的角度存在很多的問題 namenode是單點操作,所以容易出現單點故障,制約了hdfs的發展 namenode的記憶體限制也影響了hdfs的發展 mapreduce是一種基於資料集的工作模式,面向資料,這種工作模式一般是從儲存上載入資料集,然後運算元據集,最好將結果寫入儲存裝置。...