spark學習筆記一

一 . 執行spark shell的2種方式

1. scala spark-shell

2. python pyspark

二. spark訪問hadoop hdfs檔案

準備工作 file 上傳到hdfs

hadoop fs -put ../test.log /input/test.log

spark shell裡執行

val file = sc.textfile("hdfs:")

file.count()//計算這個檔案的行數

file.first()//獲取第一行內容

word count例項spark shell版

val file = sc.textfile("hdfs:")

val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reducebykey(_+_)

count.collect()

三. spark建立rdd方式

1. 從hadoop檔案系統建立,例如hdfs

2. 從已存在rdd轉換得到新的rdd

rdd有兩類操作,分別時action和transformations

action執行乙個動作,返回乙個結果

例如: file.count() 返回結果: res1: long = 2

transformations執行乙個轉換,返回乙個新rdd

val temp = file.filter(line => line.contains("2016")) //返回乙個新的rdd temp

Spark學習筆記（一） spark簡介

spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校amplab.spark是mapreduce的替代方案，相容hdfs hive等分布式儲存層，可融入hadoop的生態系統，以彌補mapreduce的不足。其主要優勢如下中間結果輸出可以將多stage的任務串聯或者並行...

Spark 學習筆記一

1.分割槽為了讓多個執行器並行地工作，spark 將資料分解成多個資料塊，每個資料塊叫做乙個分割槽。分割槽是位於集群中的一台物理機上的多行資料的集合，dataframe 的分割槽也說明了在執行過程中，資料在集群中的物理分布。如果只有乙個分割槽，即使擁有數千個執行器，spark 也只有一個執行器...

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景，感覺簡單實用，就記錄下來了。部門使用者業績表 1000w測試資料使用者部門業績資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...

spark學習筆記一

Spark學習筆記（一） spark簡介

Spark 學習筆記 一

spark 學習筆記

相關推薦

Spark 學習筆記一