大資料專案之數倉專案（一）數倉搭建

名稱版本

hadoop

3.1.3

flume

1.9.0

kafka

2.11-2.4.1

zookeeper

3.5.7

mysql

5.1.27

sqoop

1.4.6

spark

3.0.0

hive

3.1.2

本專案採用星型維度建模

1、配置sparkonhive --注意配置spark_home到環境變數 2、配置hive --配置元資料到mysql --配置相關中文注釋 --配置hiveonspark，在hive-site.xml檔案中配置：①spark的依賴位置，②hive執行的引擎 3、上傳純淨的spark的jar包到hdfs上 4、配置hadoop上容量排程器（capacity-schdualer.xml）

5、配置hive提交任務到哪個佇列上（hive-site.xml）

大資料專案之電商數倉（數倉建模理論篇）（重點）

ods 原始資料層不做處理，存放原始資料 dwd 明細資料層進行簡單資料清洗，降維 dws 服務資料層按天進行輕度彙總做寬表 dwt 資料主題層按主題進行彙總 ads 資料應用層為報表提供資料 1 保持資料原貌不做任何修改，起到備份資料的作用。2 資料採用lzo壓縮，並建立索引減少磁碟儲...

數倉專案筆記 20200817

1 資料倉儲作為資料的管理和運算中心資料存檔各種統計運算任務的核心平台 2 使用者畫像系統含義深入分析使用者後給使用者打上各種規範標籤年齡，性別，地域特徵，偏好特徵，價值指數，行為習慣，消費習慣作用對使用者進行精準營銷，用於支撐精細化營運比如，針對不同的人放不同的優惠券比如，...

大資料數倉之報表開發

在大資料開發中，主要的資料分析目的可以分為2類。一類是基於歷史資料就算是實時數倉，接收到資料的時候，其實也已經是歷史資料了做資料規律或者結果提取一類是基於歷史資料，訓練模型，做未來資料或者分類等。如果是前者，基於已有資料做資料規律和資料結果提取，這時候就可以稱之為報表開發。參考神策系統，報表...

大資料專案之數倉專案（一）數倉搭建

大資料專案之電商數倉（數倉建模理論篇）（重點）

數倉專案筆記 20200817

大資料數倉之報表開發

相關推薦