在商業智慧型bi中,我們會經常聽到乙個詞語叫etl,也看到很多相關的職位,就有etl開發工程師,那麼etl到底是什麼呢?
etl 的英文全稱叫做 extraction 抽取,transformation 轉換,loading 載入。
抽取就是指將資料從乙個資料來源、或者多個資料來源抽取過來的動作,資料來源有可能是關係型資料庫,也可能是文字檔案,或者乙個程式的api介面。
轉換就是指資料的清洗、合併、拆分、加工、資料邏輯計算處理的過程,通常會按照一定的業務邏輯規則進行計算,最後轉換成符合業務模型、分析模型的規範性的資料。簡單來說,不管是大資料、小資料,都是將不規範的、不可分析的轉換成規範的、可分析的資料。
載入就是將轉換的結果按照分析模型需要的格式將資料寫入到目標表,這些目標表就是業務自助分析的資料**,通過是按照一定建模的方式來組織的,不管是星型分析模型還是雪花型分析模型都是的。
這就是在 bi 中我們通常定義的etl處理過程。
也有另外的一種etl,不是面向資料分析的,而是純資料的處理,比如資料庫的資料遷移,多資料來源的資料遷移,這是純資料的開發,用途不一定是面向bi,可能是業務系統之間的資料轉換處理。像我們之前的乙個很大的專案,原有的erp是用cobal語言開發的,後面也是因為業務的發展需要使用新的erp系統,因此就需要把原有erp的檔案格式型別的資料按照新的業務規則、新的erp對業務表的定義將原有系統的資料抽取到新的平台,這個過程處理非常的複雜。
etl的開發工作也遠不止這些,特別是像上面我提到的乙個專案,涉及到上千張表的資料處理,光儲存過程我們寫了上千個,etl包幾百個,因此就需要對etl的架構做完整的規劃和涉及,這就到了etl架構師的階段,需要對資料、etl甚至程式開發思維都有比較高的要求。比如異常資料的處理、錯誤資料的恢復、多批次的etl包處理管理、幾十個開發人員同步開發中的專案管理等。
Samba伺服器是什麼
字型大小 t t 本文是一片基礎的概念文章,幫您了解samba伺服器是什麼,能幹什麼用。如果你已經依序一步一步的將你的 linux 當作主機安裝好了,這時,你會不會覺得,linux 跟你的日常工作的 windows 計算機的互動不是很好呢?在這兩部機器之間的資料互傳必須經過 ftp 協議才能傳送,真...
ecs伺服器是什麼
ecs伺服器是一種簡單高效 處理能力可彈性伸縮的計算服務,幫助您快速構建更穩定 安全的應用,提公升運維效率,降低 it 成本,使您更專注於核心業務創新。雲伺服器和ecs的含義有重複,它他們表達的是同乙個意思,只不過乙個是中文,乙個是英文縮寫而已。ecs意思是彈性計算伺服器。ecs伺服器優勢 穩定 例...
伺服器負載均衡是什麼?
什麼是負載均衡呢?負載均衡是由多台伺服器以對稱的方式組成乙個伺服器集合,每台伺服器都具有等價的地位,都可以單獨對外 效力而無須其他伺服器的輔助。經過某種負載分管技術,將外部傳送來的央求均勻分配到對稱結構中的某一台伺服器上,而接收到央求的伺服器獨登時回應客戶的央求。均衡負載可以平均分配客戶央求到伺服器...