spark學習筆記一

2021-07-14 03:15:17 字數 814 閱讀 1435

一 . 執行spark shell的2種方式

1. scala spark-shell

2. python  pyspark

二. spark訪問hadoop hdfs檔案

準備工作 file 上傳到hdfs

hadoop fs -put ../test.log /input/test.log

spark shell裡執行

val file = sc.textfile("hdfs:")

file.count()//計算這個檔案的行數

file.first()//獲取第一行內容

word count例項spark shell版

val file = sc.textfile("hdfs:")

val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reducebykey(_+_)

count.collect()

三. spark建立rdd方式

1. 從hadoop檔案系統建立,例如hdfs

2. 從已存在rdd轉換得到新的rdd

rdd有兩類操作,分別時action和transformations

action執行乙個動作,返回乙個結果

例如: file.count()   返回結果: res1: long = 2

transformations執行乙個轉換,返回乙個新rdd

val temp = file.filter(line => line.contains("2016")) //返回乙個新的rdd temp

Spark學習筆記(一) spark簡介

spark是基於記憶體計算的大資料平行計算框架。09年誕生於加州大學伯克利分校amplab.spark是mapreduce的替代方案,相容hdfs hive等分布式儲存層,可融入hadoop的生態系統,以彌補mapreduce的不足。其主要優勢如下 中間結果輸出 可以將多stage的任務串聯或者並行...

Spark 學習筆記 一

1.分割槽 為了讓多個執行器並行地工作,spark 將資料分解成多個資料塊,每個資料塊叫做乙個分割槽。分割槽是位於集群中的一台物理機上的多行資料的集合,dataframe 的分割槽也說明了在執行過程 中,資料在集群中的物理分布。如果只有乙個分割槽,即使擁有數千個執行器,spark 也只有一 個執行器...

spark 學習筆記

最近使用spark簡單的處理一些實際中的場景,感覺簡單實用,就記錄下來了。部門使用者業績表 1000w測試資料 使用者 部門 業績 資料載入 val context new sparkcontext conf var data context.textfile data.txt 場景1 求每個部門的...