基於阿里雲日誌服務實現,拉取阿里雲日誌到本地資料庫儲存。
優點:實施速度快。
缺點:依賴阿里雲日誌服務,擴充套件性和靈活性較差。
前端、雲端、nginx等不同格式的日誌傳送到kafka訊息佇列,之後做etl資料清洗,之後可以使用storm做實時計算或使用hive/spark streaming做離線批處理,處理結果儲存在hbase中,使用redis做快取,es做索引。維度等業務資料使用binlog增量同步到hbase中。
優點:能夠處理各種型別的海量資料,處理和查詢速度快;支援實時計算和離線計算;擴充套件性強。
缺點:伺服器成本較高,需要投入更多的伺服器資源。
大資料數倉之報表開發
在大資料開發中,主要的資料分析目的可以分為2類。一類是基於歷史資料 就算是實時數倉,接收到資料的時候,其實也已經是歷史資料了 做資料規律或者結果提取 一類是基於歷史資料,訓練模型,做未來資料 或者分類等。如果是前者,基於已有資料做資料規律和資料結果提取,這時候就可以稱之為報表開發。參考神策系統,報表...
大資料專案之數倉專案(一)數倉搭建
名稱版本 hadoop 3.1.3 flume 1.9.0 kafka 2.11 2.4.1 zookeeper 3.5.7 mysql 5.1.27 sqoop 1.4.6 spark 3.0.0 hive 3.1.2 本專案採用星型維度建模 1 配置sparkonhive 注意配置spark h...
數倉建模 分層建設理論 03
簡單點兒,直接ods dm就可以了,將所有資料同步過來,然後直接開發些應用層的報表,這是最簡單的了 當dm層的內容多了以後,想要重用,就會再拆分乙個公共層出來,變成3層架構,這個過程有點類似 重構,就是在實踐中不斷的進行抽象 總結 數倉的建模或者分層,其實都是為了更好的去組織 管理 維護資料,所以當...