大資料方案 數倉建設

2021-08-23 12:14:38 字數 469 閱讀 2656

基於阿里雲日誌服務實現,拉取阿里雲日誌到本地資料庫儲存。

優點:實施速度快。

缺點:依賴阿里雲日誌服務,擴充套件性和靈活性較差。

前端、雲端、nginx等不同格式的日誌傳送到kafka訊息佇列,之後做etl資料清洗,之後可以使用storm做實時計算或使用hive/spark streaming做離線批處理,處理結果儲存在hbase中,使用redis做快取,es做索引。維度等業務資料使用binlog增量同步到hbase中。

優點:能夠處理各種型別的海量資料,處理和查詢速度快;支援實時計算和離線計算;擴充套件性強。

缺點:伺服器成本較高,需要投入更多的伺服器資源。

大資料數倉之報表開發

在大資料開發中,主要的資料分析目的可以分為2類。一類是基於歷史資料 就算是實時數倉,接收到資料的時候,其實也已經是歷史資料了 做資料規律或者結果提取 一類是基於歷史資料,訓練模型,做未來資料 或者分類等。如果是前者,基於已有資料做資料規律和資料結果提取,這時候就可以稱之為報表開發。參考神策系統,報表...

大資料專案之數倉專案(一)數倉搭建

名稱版本 hadoop 3.1.3 flume 1.9.0 kafka 2.11 2.4.1 zookeeper 3.5.7 mysql 5.1.27 sqoop 1.4.6 spark 3.0.0 hive 3.1.2 本專案採用星型維度建模 1 配置sparkonhive 注意配置spark h...

數倉建模 分層建設理論 03

簡單點兒,直接ods dm就可以了,將所有資料同步過來,然後直接開發些應用層的報表,這是最簡單的了 當dm層的內容多了以後,想要重用,就會再拆分乙個公共層出來,變成3層架構,這個過程有點類似 重構,就是在實踐中不斷的進行抽象 總結 數倉的建模或者分層,其實都是為了更好的去組織 管理 維護資料,所以當...