大資料協作框架簡介

2021-08-07 16:11:00 字數 1295 閱讀 1435

「大資料協作框架」其實就是乙個統稱,實際上就是hadoop 2.x生態系統中幾個輔助hadoop 2.x框架。在此,主要是以下四個框架:

1)資料轉換工具sqoop

2)檔案收集庫框架flume

3)任務排程框架oozie

4)大資料web工具hue

分析資料的**?

1)rdbms:資料大量儲存在rdbms(oracle、mysql、db2等等)上,如果需要對資料進行分析,需要將這些資料儲存到hdfs上去。那麼sqoop的作用就是將關係型資料庫中的某張表資料抽取到hadoop的hdfs檔案系統當中,底層執行的還是mapreduce。它利用mapreduce加快資料傳輸速度。批處理方式進行資料傳輸。也可以將hdfs上的檔案資料或者是hive表中的資料匯出到關係型資料庫當中的某張表中。

2)日誌檔案:資料儲存在類似日誌檔案當中,如何收集這些資料到hdfs上呢?flume就是實時的收集資料,儲存到hdfs中。

當大資料分析平台中mapreduce job和hiveql比較多,需要定時排程,合理充分使用集群資源;此外,有很多業務,一般需要多個mapreduce 任務共同完成,那麼job1、job2、job3之間的存在彼此的依賴排程。此時就需要乙個排程框架來完成【多工job定時排程】和【多工之間的依賴排程】,

在hadoop 2.x生態系統中,有很多類似的框架,其中oozie是功能最強大的,相對來說很多公司都使用的乙個框架

(當然很多大公司,自身都有自己開發的排程系統,不會使用oozie這些)。

oozie既可以基於時間也可以基於資料可用性(排程任務執行之前首先判斷要處理的資料是否在hdfs之上存在)的工作流排程框架。

當然還有很多其他開源的排程框架,比如azkaban(簡單,能實現排程,發預警,發郵件)、zeus(阿里開源的hadoop job排程框架)等。

前面已經講解過很多框架了,各個框架都有自己的web ui監控頁面,分別對應不同的埠號,比如hdfs(50070)、yarn(8088)、mapreduce(19888)以及hive執行hiveql語句時命令列方式等等,此時對於實際的開發人員和運維人員來說,需要乙個統一的web ui頁面,整合大多數大資料常用框架的監控和sql執行介面,此時hue應運而生,可以在瀏覽器端的web控制台上與hadoop集群進行互動來分析處理資料,例如操作hdfs上的資料,執行mapreduce job等等。

綜上所述的三個問題,在做大資料平台資料分析過程必須遇到的,因而誕生了對應的框架,並且是開源的,供各大公司使用。其中sqoop和oozie底層執行的也是mapreduce job,所以mapreduce可以說是非常的核心關鍵,其優勢就是分布式的平行計算所決定的。

大資料框架hadoop安裝以及簡介

hadoop實現了乙個分布式檔案系統 重點 hadoop distributed file system 簡稱hdfs。hdfs有高容錯性的特點,並且設計用來部署在低廉的 low cost 硬體上 而且它提供高吞吐量 high throughput 來訪問應用程式的資料,適合那些有著超大資料集 la...

大資料入門 Impala框架基礎簡介

在大資料處理當中,核心的資料分析處理環節,衍生出了非常多的框架元件工具,基於不同場景下的需求,給出了更多可選的技術方案。比如說在互動式查詢場景下,impala就是乙個不可忽視的重要選擇。今天的大資料入門分享,我們就來講講impala框架入門的一些基礎知識。impala的出現,追溯其源頭,是來自於go...

大資料簡介

計算的速度比較慢 計算的資料量大 需要的技術hadoop hive 離線分析,他的本質就是hadoop sqoop 協作框架 hbase 資料庫,非關係型資料庫,分布式資料庫 flume 寫作框架,收集日誌資料 cm 圖形化管理器,監控集群資源狀態,部署集群。計算的資料量體量沒有離線大。計算的速度快...