(2020.11.16)
1、批計算:批量資料的高延時處理場景,如脫機數倉的加工、大規模資料的清洗和挖掘等。大多利用mapreduce、hive、spark等計算框架進行處理,特點是吞吐量達、延遲高、適合人機互動少的場景
a. 資料處理技術:spark將執行抽象模型為通用的有向無環圖(dag)執行計畫,可將多個stage串聯或者並行,無須將stage中間結果輸出到hdfs中。
b. 資料格式和記憶體布局:spark rdd能支援粗粒度寫操作,而對於讀操作,rdd可以精確到每條記錄,這使得rdd可以用來作為分布式索引
c.執行策略:mapreduce在資料shuffle之前花費了大量的時間來排序,spark支援基於hash分布式聚合,排程中採用更為通用的任務執行dag,每一輪的輸出結果都可以快取在記憶體中。
2、流計算,在滿足大資料計算場景下,更快速、更高效的獲取資料價值
4、即席分析:對大規模的資料、快速進行資料多維交叉分析
計算能力
資料**型別
資料處理方式
底層框架
延遲性應用場景
批計算歷史已存在的資料
批處理mapreduce、spark
要求不高
適合人機互動小的場景
流計算源源不斷的流式資料
微批處理&逐條處理
strom、flink、
spark streaming
毫秒/秒級延遲
歷史已存在的資料
逐條處理/檢索過濾
elasticsearch、redis
毫秒oltp、畫像服務、搜尋的應用場景、圈人場景
即席分析
歷史已存在的資料
批處理/聚合
impala、kylin、clickhouse、analyticdb
毫秒/秒級延遲
1、離線開發核心功能
a. 獲取推薦依賴的核心原理在於上下游作業輸入和輸出的表級血緣依賴圖;
b. 通過血緣分析當前作業的輸入和輸出,找到合適的上游作業;
c. 對合適的作業進行環路檢測,剔除存在閉環的作業;
d. 返回合適的節點列表;
1、實時開發套件是對流計算能力的產品封裝
2、實時計算3大特點
3、實時開發涉及的核心功能
《資料中臺 讓資料用起來》讀書筆記
本篇部落格是通過閱讀 資料中臺 讓資料用起來 結合現在自己正在乙個資料中颱還沒成體系化的公司中的一些工作經歷寫的一些筆記和個人感想。一直很喜歡資料產品經理這個崗位,也希望有一天能夠真正理解資料中颱的含義和構建過程,能夠獨自帶領搭建乙個公司的資料中臺 1 資料化平台 特徵 充分協同並融入業務流程,統一...
資料中臺( 讓資料用起來) 讀書筆記10
2020.11.17 1 中臺資料體系特徵 2 四個資料分層 3 資料讀取規則 資料讀取有嚴格的規範要求 1 貼源層概念 是全企業資料的集中儲存處,除了對非結構化資料進行結構化處理以及對相同資料進行整合外,並不對業務資料進行過多清洗加工,盡可能保留資料的原始狀態。2 貼源層建設目標 把企業的全域原始...
資料中臺( 讓資料用起來) 讀書筆記15
2020.12.23 資料安全管理 1 企業內部挑戰 2 對發資料服務商的挑戰 針對支撐公有雲或私有雲各類技術服務商。3 資料許可權問題 在進行大資料收集 處理和應用過程中,必須做到權責分明,釐清資料權屬關係,防止資料流通過程中的非法使用,保障資料安全使用。1 資料生命週期 大資料時代,資料具有高流...