1.基於haoop實現的資料倉儲需要用到的元件
資料採集層:flume,kafka,sqoop,logstash,datax
資料儲存層::msyql,hdfs,hbase,redis,mongodb
資料計算:mr,tez,spark,flink,storm
2.系統資料流程設計
業務資料--> mysql -->sqoop
日誌資料--> 後台採集--> log file -->flume --> kafka -->存到hdfs , 或者直接到分析引擎flink或者spark --> hive --> mysql --> 後台服務--> 前端視覺化
3.伺服器的選擇規劃(常規)
服務名稱
子服務伺服器
hadoop102
伺服器hadoop103
伺服器hadoop104
hdfs
namenode √
datanode√√
√secondarynamenode
√yarn
nodemanager√√
√resourcemanager √
zookeeper
zookeeper server√√
√flume(採集日誌)
flume√√
kafka
kafka√√
√flume(消費kafka)
flume
√hive
hive
√mysql
mysql
√sqoop
sqoop
√azkaban
azkabanwebserver
√azkabanexecutorserver
√服務數總計138
4.總體的數倉分層會有4層
ods : 原始資料層
dwd: etl過濾原始資料得到資料
dws:用於製作一些多維度的寬表
ads:更精細化的資料表
資料倉儲 stg層 資料倉儲架構設計
資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...
資料倉儲的架構與設計
公司之前的資料都是直接傳到hdfs上進行操作,沒有乙個資料倉儲,趁著最近空出幾台伺服器,搭了個簡陋的資料倉儲,這裡記錄一下資料倉儲的一些知識。涉及的主要內容有 什麼是資料倉儲?資料倉儲的架構 資料倉儲多維資料模型的設計 官方定義 資料倉儲是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資...
資料倉儲分層架構設計
大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...