Spark學習 1 代表性大資料技術

2021-09-25 09:04:27 字數 1565 閱讀 3539

本篇部落格是學習子雨大資料之spark入門教程的學習筆記,僅作學習之用。

開源谷歌gfs,利用mapreduce分布式並行程式設計,mapreducehdfs是hadoop的兩大核心。

資料倉儲,借助底層hdfs和hbase完成儲存,接受使用者的sql語句,轉換為mapreduce程式進行查詢,避免了大量的費時處理,類似於乙個介面

資料流轉換,存入資料倉儲中

支援mapreduce,寫好了演算法庫,專門用來解決機器學習的演算法,現在已經轉向spark平台

日誌實時採集。

關係型資料庫批量匯出並存入非關係型資料庫(hbase、hdfs)。也可以將非關係型資料庫資料轉換為關係型資料庫資料。

非關係型資料庫,列族資料庫。

選擇在伺服器中選擇主管家,備用管家的任務。

視覺化監視和自動化部署。

什麼是資料向計算靠攏,什麼是計算向資料靠攏?

舉例:nlp任務,把許多詞塊放到不同的機器上,為了做計算,講不同的詞塊拉倒同一臺機器上進行處理,叫做資料向計算靠攏。代價非常大。

非常大的檔案放在不同機器上,如果這台機器a速度快,把mapreduce分發**程式到這台機器a上,靠近資料所在地方執行程式,把結果傳給管家節點,進行彙總。這叫計算向資料靠攏。

mapreduce採用計算向資料靠攏,如圖1-4所示。

hadoop不需要了解底層技術,所有和分布式並行程式設計細節,程式設計簡單,和開發單機版本無太大區別。

為mapreduce提供資源,進行排程,類似於「管家」

spark慢慢代替hadoop中的mapreduce。spark架構圖如圖1-8所示。

我們通常所學習的。

對關係型資料庫進行訪問。

進行流計算。

做機器學習演算法。

做圖演算法。

spark生態系統如圖1-9所示。

相比於hadoop優勢:全方位軟體棧,只要學習掌握spark自身一門語言,就可以編寫不同應用環境下的應用程式。

spark可以和hadoop進行相容,例如spark可以對hdfs進行訪問,也可以hive+spark,hbase+spark,nosql+spark。

flink略晚於spark面世,所以用的並沒有spark廣泛。

谷歌開發的集大成的大資料平台。

spark學習筆記(1)

apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架,提高了在大資料環境下資料處理的實時性,同時保證了高容錯性和高可伸縮性,允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算 記憶體計算 容錯多計算正規化 byte,char,sho...

spark學習筆記(1)初來乍到

spark適用於需要多次操作特定資料集的應用場合。需要反覆操作的次數越多,所需讀取的資料量越大,受益越大,資料量小但是計算密集度較大的場合,受益就相對較小。是spark的核心概念是,指的是乙個唯讀的,可分割槽的分布式資料集,這個資料集的全部或部分可以快取在記憶體中,在多次計算間重用。這個很容易理解,...

SPARK 學習資源彙總(1)

上面兩篇是 databricks 出的關於 databricks 專業版的描述,雖然沒有從根本上解決問題,但是讀起來還是挺有說服力的,哈哈,因為採用了很多很細節的方案。不錯不錯,各位有在做雲產品的,在宣傳自己的安全方案時可用參考參考哦。spark memory issues 我一直很欣賞 datab...