ETL的簡單理解

2021-10-04 05:31:30 字數 463 閱讀 4149

測流輸出(side outputs)

功能1.拆分資料

2.獲取遲到的資料

我們既要做離線的也要做實時的

當資料入洪水般湧來,我們需要用到kafka來將資料控制住,因為kafka就是為海量數而生的,

kfka支援高併發高吞吐,這這方面kafka比hdfs還要強!!!

1.我們先用flume將資料採集到kafka裡面去做實時運算,

2.我們還想做離線的就繼續用flume將kafka傳入hdfs中,

公司面試描述 kafka:

(老版本)我們原來flume使用agent級聯方式,解決了一些問題老保證資料安全高效,

(新版本)但是從flume1.7版本之後,我們採用了flume的kafkachannal直接把資料落到

kafka裡邊,不想flume向蜘蛛網一樣在很多臺機器上搞flume比較浪費資源,

實時的etl處理離線資料落地到hdfs中

ETL部分 ETL的學習

etl extract transform load extract transform load etl是將業務系統的資料經過抽取 清洗轉換之後載入到資料倉儲的過程,目的是將企業中的分散 零亂 標準不統一的資料整合到一起,為企業的決策提供分析依據。etl是bi專案重要的乙個環節。通常情況下,在bi...

關於使用ETL工具Kettle的簡單介紹(二)

該篇主要描述已實現的一種 etl過程 環境描述 由於源端的表結構和正式庫的表結構大部分是一一對應的,所以對於這大部分表進行設計了一套通用的過程進行轉換。現在先來描述該套設計,對於一對多和多對一的過程下章進行描述。設計概述 主要需要設計幾個所需的表,n 第乙個表 該表是用來配置源端表結構與目的端表結構...

BI基本架構和ETL的個人理解

轉貼自 http hi.baidu.com cl9998 blog item ea338e86e36aef23c75cc362.html business intelligence bi data warehouse dw olap data mining dm 商業智慧型 資料倉儲 聯機分析 資料...