定義:面向主體的,整合的,相對穩定的, 反映歷史變化的資料集合,用於支援管理決策。
so,大資料的數倉建模需要通過建模的方法更好的組織、儲存資料,以便在效能、成本、效率和資料質量之間找到最佳平衡點。
關係型資料庫設計時,遵照一定的規範要求,目的在於降低資料的冗餘性和資料的一致性,目前業界正規化有:
正規化都是從上到下依次依賴的。
第一正規化(1nf)
域都應該是原子性的,及資料庫標的每一列都是不可分割的原子資料項。
第二正規化(2nf)
在1nf的基礎上,實體的屬性完全依賴於主關鍵字,不能存在僅依賴主關鍵字一部分的屬性。
第三正規化(3nf)
er模型是資料庫設計的理論基礎,當前幾乎所有的oltp系統設計都採用er模型建模的方式。
bill inom提出的數倉理論,推薦採用er關係模型進行建模。
bi架構提出分層架構,數倉底層ods,dwd也多採用er關係模型設計。
資料倉儲 建模
粒度概述 粒度問題時設計資料倉儲的乙個最重要方面。粒度時指資料倉儲的資料單位中儲存資料的細化或綜合成都的級別。細化程度越高,粒度就越小 相反,細化程度越低,粒度級就越大。資料的粒度一直時乙個設計問題。資料倉儲環境中粒度之所以時主要的設計問題,是因為它深深地影響存放在資料倉儲中的資料量的大小。同時影響...
資料倉儲建模
一 資料倉儲建模的意義 如果把資料看作圖書館裡的書,我們希望看到它們在書架上分門別類地放置 如果把資料看作城市的建築,我們希望城市規劃布局合理 如果把資料看作電腦檔案和資料夾,我們希望按照自己的習慣有很好的資料夾組織方式,而不是糟糕混亂的桌面,經常為找乙個檔案而不知所措。資料模型就是資料組織和儲存方...
資料倉儲建模
是原始資料,儲存總hdfs上 lzo壓縮 解壓速度非常快 允許在壓縮部分以損失壓縮速度為代價提高壓縮率,解壓速度不會降低。演算法無損,執行緒安全 需構建維度模型,一般採用星型模型,呈現的狀態一般為星座模型 維度建模的過程 選擇業務 一條業務線對應一張事實表 宣告粒度 精確定義事實表中的一行資料表示什...