(1)用sc.textfile(" ") 來實現檔案的載入
val rdd1 = sc.testfile("home/centos/test.txt
");//載入文字檔案,以換行符的方式切割文字檔案.array(hello world1 ,.........),產生第乙個彈性分布式資料集
(2)元素拿來之後對集合中的每個元素進行切割,按照空格進行切割
def map[u](f:string=>u)(implict evidence$3:scala.reflect.classtag[u]):org.apache.spark.rdd.rdd[u]
這個地方map是柯里化的,有兩個引數,第二個是隱式的,函式f是是從string型別到u的對映,把一行按照空格來進行切割
把每一行進行切割,切開之後,每個元素都變成了乙個陣列,第乙個元素是[hello world1],第二個元素是[hello world2],第三個元素是[hello world3],第四個元素是[hello world4],這個時候已經變成陣列的集合了
(3)val rdd2 = rdd1.flatmap(line=>line.split(" ")); //壓扁操作
(4)val rdd3 = rdd2.map(word=>(word,1)) //變換成對偶(k,v)
(5)val rdd4=reducebykey(_ + _) //_是對每個元素的引用,按照key來聚合value
(6)rdd4.collect //檢視結果
(7)一頓操作猛如虎
sc.textfile("/home/centos/test.txt
").flatmap(_.split("
")).reducebykey(_ + _).collect
(8)單詞過濾
sc.textfile("/home/centos/test.txt
").flatmap(_.split("
")).filter(_.contains("
wor")).map((_,1)).reducebykey(_ + _).collect
spark學習筆記(1)
apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架,提高了在大資料環境下資料處理的實時性,同時保證了高容錯性和高可伸縮性,允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算 記憶體計算 容錯多計算正規化 byte,char,sho...
HTML 複習筆記 1
html格式化 html 樣式 外部樣式表 當瀏覽器讀到乙個樣式表,它就會按照這個樣式表來對文件進行格式化。有以下三種方式來插入樣式表 當樣式需要被應用到很多頁面的時候,外部樣式表將是理想的選擇。使用外部樣式表,你就可以通過更改乙個檔案來改變整個站點的外觀。當單個檔案需要特別樣式時,就可以使用內部樣...
Linux 複習筆記1
1.linux嚴格區分大小寫 2.linux所有內容以檔案形式儲存,包括硬體 3.linux不靠副檔名區分檔案型別 壓縮包 gz,bz2,tar.bz2 tgz等 二進位制軟體包 rpm 指令碼檔案 sh 配置檔案 conf 分割槽每個block大小為4k 1.擁有相同的i節點和儲存block塊,可...