框架版本,伺服器選型,集群規劃
埋點資料
事件日誌:logback
hadoop:hdfs多目錄,lzo解壓,基準測試
zookeeper
集群日誌生成啟動指令碼,同步修改指令碼,程序檢視指令碼
日誌採集flume
etl***
分型別***
kafka集群:壓力測試,消費flume資料
kafka manager
數倉分層
hive&mysql,hive執行引擎tez
ods,dwd,dws,ads
自定義udf,udtf函式
每日周月活躍裝置,使用者
每日新增,使用者留存
沉默使用者,本週回流,流失使用者,最近3周活躍使用者數
最近7天連續3天活躍數
業務數倉
雪花模型、星型模型、星座模型
sqoop
gmv成交總額
使用者行為漏斗分析
azkaban
拉鍊表即席數倉
presto
druid
cdh數倉
oozie、hue、spark
資料倉儲 大資料學習 記錄 筆記
名詞解釋 1 scd slow changing dimension緩慢變化維度 能告訴我scd哪三種型別嗎?第一種 覆蓋原記錄,只保留最新記錄 第二種 對每一種變化 update 都記錄,主鍵預留一部分 powercenter好像是預留1000個 第三種 折中 保留上次的記錄 2 ods 運算元據...
大資料資料倉儲 場景
2015 10 24 朱潔hadoop技術學習 傳統oltp olap之分 資料倉儲裡面有oltp olap之分,oltp是傳統關係型資料庫的主要應用,其主要面向基本的 日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。大資...
資料倉儲 大資料定義
2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...