……………………………………………………………精品資料推薦…………………………………………………
etl構建資料倉儲五步法
在資料倉儲構建中,
etl貫穿於專案始終,
它是整個資料倉儲的生命線,
包括了從資料清洗,
整合,到轉換,
載入等的各個過程,如果說資料倉儲是一座大廈,那
麼etl
就是大廈的根基,
etl抽取整合資料的好壞直
接影響到最終的結果展現。
所以etl
在整個資料倉儲專案中起著十分關鍵的作用,
必須擺到十分重要的位
置。一、什麼是
etletl
是資料抽取(
extract
)、轉換(
transform
)、載入(
load
)的簡寫,它是將
oltp
系統中的資料經
過抽取,並將不同資料來源的資料進行轉換、整合,得出一致性的資料,然後載入到資料倉儲中。簡而言之
etl是完成從
oltp
系統到olap
系統的過程(圖一:
二、資料倉儲的架構
資料倉儲(
data warehouse \ dw
)是基於
oltp
系統的資料來源,為了便於多維分析和
多角度展現將其
資料按特定的模式進行儲存而建立的關係型資料庫,它不同於多維資料庫,資料倉儲中的資料是細節的,
整合的,資料倉儲是面向主題的,是以
olap
系統為分析目的。它包括星型架構(圖二:
)與雪花型架構(圖三:
),其中星型架構中間為事實表,四周為維度表,
類似星星;雪花型架構中間
為事實表,兩邊的維度表可以再有其關聯子表,而在星型中只允許一張表作為維度表與事實表關聯,雪花
型一維度可以有多張表,而星型
不可以。考慮到效率時,星型聚合快,效率高,不過雪花型結構明確,便
於與oltp
系統互動。在實際專案中,我們將綜合運用星型架構與雪花型架構。
三、etl
構建企業級資料倉儲五步法的流程
(一)、確定主題
即確定資料分析或前端展現的某一方面的分析主題,例如我們分析某年某月某一地區的啤酒銷售情況,就
是乙個主題。主題要體現某一方面的各分析角度(維度)和統計數值型資料(量度),確定主題時要綜合
考慮,乙個主題在資料倉儲中即為乙個資料集市,資料集市體現了某一方面的資訊,多個資料集市構成了
資料倉儲。
etl構建資料倉儲五步法 資料倉儲 ETL
資料倉儲是由外部多個資料來源彙總整合的,整合 這個詞代表並不是簡單的堆積,而是需要進行一些邏輯處理,數倉的整合就是這樣,因為外部資料來源都是異構的,所以需要做很多任務作才可以進行整合,這些工作包括但不限於 欄位的意義統一,輕度統計等。抽取資料 有如下策略 時間戳判斷 掃瞄增量檔案 日誌檔案,審計檔案...
etl構建資料倉儲五步法 資料倉儲建模篇
1 什麼叫資料倉儲?資料倉儲的特點?首先,用於支援決策,面向分析型資料處理,它不同於企業現有的操作型資料庫 其次,對多個異構的資料來源有效整合,整合後按照主題進行了重組,幷包含歷史資料,而且存放在資料倉儲中的資料一般不再修改。資料倉儲是乙個面向主題的 subject oriented 整合的 int...
資料倉儲 ETL
etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...