1. 資料倉儲需求分析
1.1主題分析:確定主題
使用者從哪些角度來分析資料:主題(比如銷售主體)、指標、維度、粒度
1.2資料分析:了解資料情況,是否可以支撐主題
資料來源分析:資料來源的資料表的關係,資料表的內容
資料量分析:記錄和字段的量進行乙個統計分析
資料質量分析:正確性分析、一致性分析、規範性分析
1.3環境要求分析
伺服器 網路 介面 軟體等
2. 資料倉儲建模:資料倉儲邏輯模型
採用多維資料模型--資料立方體:滿足從多角度、多層次進行資料分析和查詢
2.1 多維資料模型概念
儲存:多維結構檔案,並有相應的元資料與資料相對應
粒度:廣東省,廣東省深圳市、廣東省深圳市南山區 三個從小到大的粒度
維度:比如隨時間看銷售資料,這裡就是時間維,從地區看銷售資料,這裡就是地區維
人 車 裝置 卡 ** 商戶 六大綜合維表,還有時間,地區等維度
維度屬性和維度成員:時間維包含年、月、季度、日期等成員
維層次(概念分層):南山區---深圳市---廣東省---中國
度量與事實:比如銷售額、銷售量,存在事實資料表中
2.2 多維資料模型實現
關聯式資料庫:維表,事實表
多維資料庫:如excel,第一行和第一列都是維,其他的都是度量資料
2.2.1 主題的內容描述
主題的公共鍵(主鍵或者唯一標識)、主題之間的聯絡和各主題的屬性
2.2.2 常見的基於關係型資料庫的多維資料模型:
星型模式
雪花模式
事實星座模式
3. 資料倉儲的物理模型設計
引入冗餘
分割槽、分桶
增加索引
人、車、裝置(靜態裝置表、動態裝置表)、卡(靜態卡表,動態卡表)、商戶、** 、時間、地區 10張維表
唯一鍵標識,並給唯一標識建立索引
把所有的維表通過唯一鍵標識關聯成一張事實索引表
這樣就可以以不變應萬變,適應任何業務
比如盜搶險:
整合盜搶險資料
然後通過盜搶險關聯的裝置和時間標識到事實索引表中就可以找到相關的所有資料
定義好每張表的描述資訊和更新週期以及機制
資料倉儲怎麼搭建?
資料倉儲怎麼搭建?在網上一搜,有太多的大廠中廠數倉完整實踐的文章,已經能把數倉由哪些組成,各部分如何建設,重點難點和解決方法都講的很清楚。我接觸到的大多數數倉開發者對於資料倉儲都有乙個較為完整的了解,各個部分也都能說得頭頭是道。可另一方面,從我了解到的片面的行業資訊來說,除了在網上發文章的那些公司,...
資料倉儲系列(1) 為什麼要搭建資料倉儲
本文寫作的初衷,是想以阿里巴巴的onedata體系為出發點,詳細闡述資料倉儲搭建的初衷 架構的理念及實現的方式,藉此來總結從事大資料開發崗位多年以來的經驗積累。僅從筆者個人角度出發,收集相關素材,進行二次整理,並非原創。要想全面的來看待資料倉儲,首先要回答的是資料倉儲搭建的目的 筆者個人理解 以資料...
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...