一 . 執行spark shell的2種方式
1. scala spark-shell
2. python pyspark
二. spark訪問hadoop hdfs檔案
準備工作 file 上傳到hdfs
hadoop fs -put ../test.log /input/test.log
spark shell裡執行
val file = sc.textfile("hdfs:")
file.count()//計算這個檔案的行數
file.first()//獲取第一行內容
word count例項spark shell版
val file = sc.textfile("hdfs:")
val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reducebykey(_+_)
count.collect()
三. spark建立rdd方式
1. 從hadoop檔案系統建立,例如hdfs
2. 從已存在rdd轉換得到新的rdd
rdd有兩類操作,分別時action和transformations
action執行乙個動作,返回乙個結果
例如: file.count() 返回結果: res1: long = 2
transformations執行乙個轉換,返回乙個新rdd
val temp = file.filter(line => line.contains("2016")) //返回乙個新的rdd temp
Spark學習筆記(一) spark簡介
spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校amplab.spark是mapreduce的替代方案,相容hdfs hive等分布式儲存層,可融入hadoop的生態系統,以彌補mapreduce的不足。其主要優勢如下 中間結果輸出 可以將多stage的任務串聯或者並行...
Spark 學習筆記 一
1.分割槽 為了讓多個執行器並行地工作,spark 將資料分解成多個資料塊,每個資料塊叫做乙個分割槽。分割槽是位於集群中的一台物理機上的多行資料的集合,dataframe 的分割槽也說明了在執行過程 中,資料在集群中的物理分布。如果只有乙個分割槽,即使擁有數千個執行器,spark 也只有一 個執行器...
spark 學習筆記
最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...