大資料學習框架及指南

2021-08-21 20:29:31 字數 3000 閱讀 6536

hadoop生態圈

一 ,採集,資料從**來?主要包括flume等;

一 ,儲存,海量的資料怎樣有效的儲存?主要包括hdfs、kafka;

二,計算,海量的資料怎樣快速計算?主要包括mapreduce、spark、storm等;

三,查詢,海量資料怎樣快速查詢?主要為nosql和olap,nosql主要包括hbase、 cassandra 等,其中olap包括kylin、impla等,其中nosql主要解決隨機查詢,olap技術主要解決關聯查詢;

四,挖掘,海量資料怎樣挖掘出隱藏的知識?也就是當前火熱的機器學習和深度學習等技術,包括tensorflow、mahout、spark等;

apache ambari是一種基於web的工具,介面友好,支援apache hadoop集群的**、管理和監控。ambari已支援大多數hadoop元件,包括hdfs、mapreduce、hive、pig、 hbase、zookeeper、sqoop等,可用於生產環境。

學習路線:

1、hadoop是乙個能夠對大量資料進行分布式處理的軟體框架,他以一種可靠、高效、可伸縮的方式進行資料處理。具有高可靠性、高擴充套件性、高效性、高容錯性、低成本的特點。

2、hadoop hdfs–分布式檔案系統

將檔案分成多個block,分散儲存到不同的節點上,並提供多副本,保證資料容錯性能。

namenode負責:管理整個集群。維護檔案系統的目錄結構

datanode負責:儲存檔案

3、hadoop yarn–資源的排程和管理平台

集中管理集群的整個計算資源,以container的形式進行資源分配。

主從結構

resourcemanager負責:集群資源的分配與排程mapreduce、spark等應用,必須實現

nodemanager負責:單節點資源的管理

由兩個階段組成:map和reduce,map階段每個節點處理自己節點的資料。

reduce階段不同節點間進行資料交換,並進行聚合計算。

(1) zookeeper是什麼?

zookeeper是 hadoop 的分布式協調服務,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,它是集群的管理者,監視著集群中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

(2) zookeeper提供了什麼?

通知機制:客戶端註冊監聽它關心的目錄節點,當目錄節點發生變化(資料改變、被刪除、子目錄節點增加刪除)時,zookeeper會通知客戶端。

(3) zookeeper做了什麼?

6、hive

基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。

底層資料儲存在哪? hdfs

元資料儲存在哪? mysql、derby等資料庫

如何執行? hive的直譯器、編譯器、優化器完成 hql 語句從詞法分析、語法分析、編譯、優化,生成mapreduce 任務在hadoop上執行

使用者介面主要有三個:cli,jdbc/odbc和 webui

7、hbase

hbase是乙個分布式的、面向列的開源資料庫

高可靠性、高效能、面向列、可伸縮,底層資料存在hdfs中

處理非常龐大的表, 適合處理1億條或者10億條以及以上條記錄或者有百萬個列的資料庫。

flume是乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統。

flume是分布式的日誌收集系統,它將各個伺服器中的資料收集起來並送到指定的地方去比如說送到圖中的hdfs,簡單來說flume就是收集日誌的。同時,flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

(2) spark 執行模式

10、kafka

kafka 是乙個高吞吐量的、永續性的、分布式發布訂閱訊息系統。

典型的生產消費模式,生產者向主題中傳送訊息消費者訂閱主題消費訊息。

應用場景:實時性較高的場合,比如流式處理,經典用法kafka+storm、kafka+sparkstreaming

11、storm

storm可以實現高頻資料和大規模資料的實時處理不同於spark streaming 的微批處理,storm可以根據進來的每一條資料進行實時處理,實時效能非常高。

以上就是我對大資料學習框架的整理。

Hadoop大資料開發框架學習

hadoop是apache發布的開源分布式基礎架構 他的兩個核心是 兩部分就組成了hadoop的分布式基礎架構 hdfs作為hadoop為儲存海量資料,自然有著與傳統檔案系統有著不同的結構,它是以linux檔案系統的基礎的架構,構建裡一套分布式檔案系統,它是由乙個namenode和多台datanod...

大資料學習 資源排程框架 YARN

伺服器集群資源排程管理和mapreduce執行過程耦合在一起帶來的問題 不同計算框架可以共享同乙個hdfs集群上的資料,享受整體的資源排程 1,client提交作業請求 6,container啟動後,執行對應的任務 1 mapred site.xml mapreduce.framework.name...

大資料框架初探

mapreduce程式設計模型 yarn hadoop生態圈 參考所謂大資料,就是如下幾個特點的資料,ibm用5個v來表述它 volume velocity variety value veracity。volume 巨大的資料量 集中儲存 集中計算已經無法處理巨大的資料量。velocity 資料增...