ETL的簡單理解

測流輸出(side outputs)

功能1.拆分資料

2.獲取遲到的資料

我們既要做離線的也要做實時的

當資料入洪水般湧來,我們需要用到kafka來將資料控制住,因為kafka就是為海量數而生的,

kfka支援高併發高吞吐,這這方面kafka比hdfs還要強!!!

1.我們先用flume將資料採集到kafka裡面去做實時運算,

2.我們還想做離線的就繼續用flume將kafka傳入hdfs中,

公司面試描述 kafka:

(老版本)我們原來flume使用agent級聯方式,解決了一些問題老保證資料安全高效,

(新版本)但是從flume1.7版本之後,我們採用了flume的kafkachannal直接把資料落到

kafka裡邊,不想flume向蜘蛛網一樣在很多臺機器上搞flume比較浪費資源,

實時的etl處理離線資料落地到hdfs中

ETL部分 ETL的學習

etl extract transform load extract transform load etl是將業務系統的資料經過抽取清洗轉換之後載入到資料倉儲的過程，目的是將企業中的分散零亂標準不統一的資料整合到一起，為企業的決策提供分析依據。etl是bi專案重要的乙個環節。通常情況下，在bi...

關於使用ETL工具Kettle的簡單介紹（二）

該篇主要描述已實現的一種 etl過程環境描述由於源端的表結構和正式庫的表結構大部分是一一對應的，所以對於這大部分表進行設計了一套通用的過程進行轉換。現在先來描述該套設計，對於一對多和多對一的過程下章進行描述。設計概述主要需要設計幾個所需的表，n 第乙個表該表是用來配置源端表結構與目的端表結構...

BI基本架構和ETL的個人理解

轉貼自 http hi.baidu.com cl9998 blog item ea338e86e36aef23c75cc362.html business intelligence bi data warehouse dw olap data mining dm 商業智慧型資料倉儲聯機分析資料...

ETL的簡單理解

ETL部分 ETL的學習

關於使用ETL工具Kettle的簡單介紹（二）

BI基本架構和ETL的個人理解

相關推薦