啟動pyspark
cd /usr/local/spark
./bin/pyspark
統計文字的行數lines = sc.textfile("file:///usr/local/spark/readme.md")
lines.count()
rdd的persisit方法會將該rdd物件持久化到記憶體中,對於可能會被重複呼叫的rdd物件,這種方法可以減少計算量,因此主要的流程為:
* 從外部資料建立出輸入rdd
* 進行一些rdd物件的轉化,同時建立一些新的rdd物件
* 對需要被重複計算的中間結果進行persist操作
* 使用行動操作(action)來觸發一次計算
針對各個元素的轉化操作
偽集合操作
Spark的基本使用
啟動spark shell 開啟命令列或終端 pyspark import pyspark 匯入pyspark 檢視spark context資訊 讀入檔案 列印檔案內容 可利用collect 函式,它能夠以陣列的形式,返回rdd資料集的所有元素 lines spark.read.text file...
Spark基本概念
下面是spark的乙個日誌計數示例,該程式演示了spark的計算模型 下面是spark執行時涉及的各元件的概況圖 從rdd轉換和儲存角度,使用者程式對rdd通過多個函式進行操作,將rdd進行轉換。block manager管理rdd的物理分割槽,每個block就是節點上對應的乙個資料塊,可以儲存在記...
Spark基本概念
a.driver programs通過sparkcontent物件訪問spark b.sparkcontent代表和乙個集群的鏈結 c.在shell中sparkcontent物件自動建立好了,就是sc 主要分為兩種 python shell和 scala shell 現在主要介紹scala shel...