名稱版本
hadoop
3.1.3
flume
1.9.0
kafka
2.11-2.4.1
zookeeper
3.5.7
mysql
5.1.27
sqoop
1.4.6
spark
3.0.0
hive
3.1.2
本專案採用星型維度建模
1、配置sparkonhive
--注意配置spark_home到環境變數
2、配置hive
--配置元資料到mysql
--配置相關中文注釋
--配置hiveonspark,在hive-site.xml檔案中配置:①spark的依賴位置,②hive執行的引擎
3、上傳純淨的spark的jar包到hdfs上
4、配置hadoop上容量排程器(capacity-schdualer.xml)
5、配置hive提交任務到哪個佇列上(hive-site.xml)
大資料專案之電商數倉(數倉建模理論篇)(重點)
ods 原始資料層 不做處理,存放原始資料 dwd 明細資料層 進行簡單資料清洗,降維 dws 服務資料層 按天進行輕度彙總 做寬表 dwt 資料主題層 按主題進行彙總 ads 資料應用層 為報表提供資料 1 保持資料原貌不做任何修改,起到備份資料的作用。2 資料採用lzo壓縮,並建立索引減少磁碟儲...
數倉專案筆記 20200817
1 資料倉儲 作為資料的管理和運算中心 資料存檔 各種統計 運算任務的核心平台 2 使用者畫像系統 含義 深入分析使用者後給使用者打上各種規範標籤 年齡,性別,地域特徵,偏好特徵,價值指數,行為習慣,消費習慣 作用 對使用者進行精準營銷,用於支撐精細化營運 比如,針對不同的人 放不同的優惠券 比如,...
大資料數倉之報表開發
在大資料開發中,主要的資料分析目的可以分為2類。一類是基於歷史資料 就算是實時數倉,接收到資料的時候,其實也已經是歷史資料了 做資料規律或者結果提取 一類是基於歷史資料,訓練模型,做未來資料 或者分類等。如果是前者,基於已有資料做資料規律和資料結果提取,這時候就可以稱之為報表開發。參考神策系統,報表...