有些基礎用法就不詳細介紹,有疑問的夥伴互相交流。
一.rdd的介紹
rdd(resilient distributed dataset)叫做分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變、可分割槽、裡面的元素可平行計算的集合。rdd具有資料流模型的特點:自動容錯、位置感知性排程和可伸縮性。rdd允許使用者在執行多個查詢時顯式地將工作集快取在記憶體中,後續的查詢能夠重用工作集,這極大地提公升了查詢速度。
二.rdd特點
1.一組分片(partition),即資料集的基本組成單位。對於rdd來說,每個分片都會被乙個計算任務處理,並決定平行計算的粒度。使用者可以在建立rdd時指定rdd的分片個數,如果沒有指定,那麼就會採用預設值。預設值就是程式所分配到的cpu core的數目。
2.乙個計算每個分割槽的函式。spark中rdd的計算是以分片為單位的,每個rdd都會實現compute函式以達到這個目的。compute函式會對迭代器進行復合,不需要儲存每次計算的結果。
3.rdd之間的依賴關係。rdd的每次轉換都會生成乙個新的rdd,所以rdd之間就會形成類似於流水線一樣的前後依賴關係。在部分分割槽資料丟失時,spark可以通過這個依賴關係重新計算丟失的分割槽資料,而不是對rdd的所有分割槽進行重新計算。
spark學習系列 3 rdd介紹
1 rdd是spark提供的核心抽象,全稱為resillient distributed dataset,即彈性分布式資料集。2 rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。分布式資料集 3 r...
Spark入門系列
讀完spark官方文件後,在研究別人的原始碼以及spark的原始碼之前進行一番入門學習,這個系列不錯。spark系列 除此之外,databricks也是乙個非常不錯的 上面可以使用免費的spark集群進行 提交與測試,在youtube以及spark大會中都有其發布教程以及spark應用部署的相關細節...
spark學習系列
以spark原始碼為參照分析模式匹配及種類 graphx 核心理解 spark 核心排程理解 效能spark效能相關引數配置 搜狗實驗室 sogou labs 富貴有定數,學問則無定數。求一分,便得一分 關於博主 許鵬,花名 徽滬一郎,2000年畢業於南京郵電學院,現就業於愛立信上海,在udm部門從...