5個元素
1. rdd返回的partition物件集合
2. 資料本地性 driver master 資料本地性
3. 返回依賴關係,只需要關注parents ,簡化了模型計算
4. 迭代器,不同框架和計算時讀取父rdd都是一樣的,基於同一種型別的迴圈非常高效
5. partitioner
rdd不變性儲存,也可以帶來細粒度的控制,我們可以對資料版本記錄
rdd怎麼控制資料分割槽,通過key值進行分割槽,
spark利用了記憶體儲存的低延遲性
rdd精髓在機器學習和圖計算
資料的列式儲存,shark sparksql,通過rdd可以儲存複雜格式,
通過lineage進行容錯,但是這些要求資料的不變性
spark高效執行sql,
dag區域性執行
有失真壓縮,
概念資料模型 邏輯資料模型 物理資料模型
概念資料模型設計與邏輯資料模型設計 物理資料模型設計是資料庫及資料倉儲模型設計的三個主要步驟。在資料倉儲領域有乙個概念叫conceptual data model,中文一般翻譯為 概念資料模型 概念資料模型是終端使用者對資料儲存的看法,反映了終端使用者綜合性的資訊需求,它以資料類的方式描述企業級的資...
概念資料模型,邏輯資料模型,物理資料模型
在資料倉儲領域有乙個概念叫conceptual data model,中文一般翻譯為 概念資料模型 概念資料模型是終端使用者對資料儲存的看法,反映了終端使用者綜合性的資訊需求,它以資料類的方式描述企業級的資料需求,資料類代表了在業務環境中自然聚集成的幾個主要類別資料。概念資料模型的內容包括重要的實體...
資料模型 概念資料模型,邏輯資料模型,物理資料模型
資料模型所描述的內容包括三個部分 資料結構 資料操作 資料約束。1 資料結構 資料模型中的資料結構主要描述資料的型別 內容 性質以及資料間的聯絡等。資料結構是資料模型的基礎,資料操作和約束都建立在資料結構上。不同的資料結構具有不同的操作和約束。2 資料操作 資料模型中資料操作主要描述在相應的資料結構...