etl,extraction-transformation-loading的縮寫,中文名稱為資料抽取、轉換和載入。
一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式、原始資料格式、資料量、儲存要求、使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安全性,後續的擴充套件性,以及資料分析的時效性,這是乙個很大的挑戰。
名詞解釋:
資料抽取是指把ods源資料抽取到dw中,然後處理成展示給相關人員檢視的資料
源資料:
抽取頻次:
抽取策略:
顧名思義,就是把不需要的和不符合規範的資料進行處理。資料清洗最好不要放在抽取的環節進行,考慮到有時可能會查原始資料。一般各公司都會有自己的規範,以下列出幾點僅供參考
資料清洗主要包括以下幾個方面:
空值處理;根據業務需要,可以將空值替換為特定的值或者直接過濾掉;
驗證資料正確性;主要是把不符合業務含義的資料做一處理,比如,把乙個表示數量的字段中的字串替換為0,把乙個日期欄位的非日期字串過濾掉等等;
規範資料格式;比如,把所有的日期都格式化成yyyy-mm-dd hh:mm:ss的格式等;
資料轉碼;把乙個源資料中用編碼表示的字段,通過關聯編碼表,轉換成代表其真實意義的值等等;
資料標準,統一;比如在源資料中表示男女的方式有很多種,在抽取的時候,直接根據模型中定義的值做轉化,統一表示男女;
其他業務規則定義的資料清洗...
資料拉取,清洗完之後,就需要展示了。一般是把清洗好的資料載入到mysql中,然後在各系統中使用,或者使用tableau直接給相關人員展示
elt相關的工具有很多,這裡只列舉一些常用的,而且各公司的技術原型也不一樣,就需要根據實際情況來選擇
資料抽取工具:
資料清洗
其它工具
試想一下,你作為乙個新人接手別人的工作,沒有文件,程式沒有注釋,資料庫中的表和字段也沒有任何comment,你是不是會望著窗外,一聲長嘆...
所以元資料管理系統對於資料倉儲來說是必須的,並且相關人員必須定時維護,如果元資料和資料倉儲中的變動不同步,那麼元資料系統就形同虛設。
這裡說一句:對於元資料管理不應該是規範,應該是硬性規定。
歡迎訂閱「k叔區塊鏈」 - 專注於區塊鏈技術學習
segmentfault主頁:
資料倉儲之ETL實戰
etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...
資料倉儲 ETL
etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...
資料倉儲之ETL導讀
etl是資料抽取 extract 轉換 transform 載入 load 的簡寫,它是將oltp系統中的資料經過抽取,並將不同資料來源的資料進行轉換 整合,得出一致性的資料,然後載入到資料倉儲中。簡而言之etl是完成從 oltp系統到olap系統的過程。看過這樣一本書,將etl比作餐館的後廚,後廚...