spark學習筆記(1)初來乍到

2021-07-23 05:20:43 字數 1107 閱讀 6027

spark適用於需要多次操作特定資料集的應用場合。需要反覆操作的次數越多,所需讀取的資料量越大,受益越大,資料量小但是計算密集度較大的場合,受益就相對較小。

是spark的核心概念是,指的是乙個唯讀的,可分割槽的分布式資料集,這個資料集的全部或部分可以快取在記憶體中,在多次計算間重用。(這個很容易理解,因為spark本身就是基於記憶體的分布式計算框架)

spark的主要區別在於其它分布式運算環境下的資料容錯性(節點實效/資料丟失)問題時採用的方案。為了保證rdd中資料的魯棒性

(robust健壯性

),rdd資料集通過所謂的血統關係(lineage)記住了它是如何從其它rdd中演變過來的。相比其它系統的細顆粒度的記憶體資料更新級別的備份或者log機制,rdd的lineage記錄的是粗顆粒度的特定資料變換(transformation)操作(filter, map, join etc.)行為。當這個rdd的部分分割槽資料丟失時,它可以通過lineage獲取足夠的資訊來重新運算和恢復丟失的資料分割槽。這種粗顆粒的資料模型,限制了spark的運用場合,但同時相比細顆粒度的資料模型,也帶來了效能的提公升。

總之,spark的核心思路就是將資料集快取在記憶體中加快讀取速度,同時用lineage關聯的rdd以較小的效能代價保證資料的魯棒性。

spark streaming是建立在spark上的實時計算框架,通過它提供的豐富的api、基於記憶體的高速執行引擎,使用者可以結合流式、批處理和互動試查詢應用。

構建在spark上處理stream資料的框架,基本的原理是將stream資料分成小的時間片斷(幾秒),以類似batch批量處理的方式來處理這小部分資料。discretized streams會在後面繼續細化。

shark基本上就是在spark的框架基礎上提供和hive一樣的h iveql命令介面,為了最大程度的保持和hive的相容性,shark使用了hive的api來實現query parsing和 logic plan generation,最後的physicalplan   execution階段用spark代替hadoop mapreduce通過配置shark引數,shark可以自動在記憶體中快取特定的rdd,實現資料重用,進而加快特定資料集的檢索。同時,shark通過udf使用者自定義函式實現特定的資料分析學習演算法,使得sql資料查詢和運算分析能結合在一起,最大化rdd的重複使用。

spark學習筆記(1)

apache spark是一種新型的快速通用的集群計算引擎。spark是基於記憶體計算的大資料計算框架,提高了在大資料環境下資料處理的實時性,同時保證了高容錯性和高可伸縮性,允許使用者將spark部署在大量廉價的硬體之上。形成集群。分布式計算 記憶體計算 容錯多計算正規化 byte,char,sho...

Spark學習筆記(1) 基本函式

spark學習筆記 1 基本函式 前言 spark之精髓遠未領略,基本的函式和指令只能說是初體驗。希望日後可以將這個工具熟練掌握。語言 scala 內容 scala rdd.foreach println 字串內容 自己瞎輸的幾個字串 leige ddf dfe efefe sdcd dfe eff...

Audinst HUD mx1 初來乍到

最近花時間爬了不少論壇,尋找合適的 usb dac。對我來說,主要用途是放在辦公室聽聽 音質要求較高,小巧,方便攜帶外出。曾經考慮過 hifidiy 的 aune usb dac 和 nuforce udac 2,但是最終選擇了棒子貨 audinsthud mx1。大陸的朋友可以直接在 上查詢該裝置...