Hadoop生態系統

2021-06-20 20:24:20 字數 1350 閱讀 3073

摘要:介紹hadoop生態系統,從hadoop生態系統有什麼成員,成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。

hadoop生態圖,通俗地說,就是hadoop核心模組和衍生的子專案。

一幅hadoop生態圖,讓我想到了兩個問題。

問題一:hadoop生態系統包括哪些成員?每個成員各自扮演什麼樣的角色?

問題二:從系統論的角度來觀察,hadoop生態系統為我們破解大資料問題可以提供哪些解決方案?

我們先來看問題一。

俗話說,「大道至簡」,為了全方位地應用hadoop形成解決大資料問題的方案,hadoop周邊的子專案或工具,讓hadoop如虎添翼。在此,選取幾個細說如下。

1)pig(它是hadoop的乙個擴充套件,簡化了hadoop的程式設計,提供了乙個高階資料處理語言pig latin,並且保持了hadoop易於擴充套件與可靠的特徵。

2)hive(它是一種類sql資料倉儲基礎設施,建立在hadoop基礎上的資料倉儲軟體包。資料分析師們可以使用一種hiveql的類sql語言,發起乙個查詢實現與hive的互動。

3)hbase(它是乙個可擴充套件的、分布式的、大資料儲存系統。它的設計源自谷歌的bigtable,旨在支援大表,即包含數十億級別的行和數百萬級別的列。

4)zookeeper(它是用於構建大型分布式應用的一種協作式服務。它實現了許多在大型分布式應用中常見的服務,如配置管理、命名、同步和組服務。

5)sqoop(它是用在關聯式資料庫和hadoop之間傳遞資料。簡而言之,通過sqoop,一方面可以把關聯式資料庫中資料匯入到hdfs;另一方面也可以把hdfs中的資料匯入到關聯式資料庫裡。

6)mahout(它是針對hadoop實現機器學習演算法,包含樸素貝葉斯分類、k-means聚類和協同過濾等演算法。

通過對問題一的求解,我們對hadoop生態圖有了整體觀,尤其是裡面有哪些成員,每個成員能夠做什麼有了認識。

不管是我們人,還是各種各樣的工具,都應該具有解決問題的能力。當如此,才能感受到存在的價值與意義。

hadoop生態系統的核心模組和衍生專案,實際上都是為解決好大資料問題而誕生、發展和壯大的。比方說,yahoo是hadoop的乙個重量級使用者,它是hadoop core和pig的後台支持者,它有40%的hadoop作業是使用pig執行的;twitter也是pig的有名使用者;facebook使用hive處理大量使用者資料和日誌資料等等。由此啟發,面對大資料的問題,不管是管理者,還是開發者,可以考慮hadoop生態系統來構建解決方案,並且在解決大資料問題的同時,進一步完善hadoop生態系統。

source:

1 2 

3 4 

Hadoop 生態系統

hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。2 高擴充套件性 在集群間分配任務資料,可方便的擴充套件數以乾計的節點。3 高效性 在mapreduce...

Hadoop生態系統

hadoop生態系統 廣義的hadoop hdfs 檔案儲存系統基於硬碟 yarn 資源排程框架 mapreduce 分布式處理框架 hive 資料倉儲 rconnections 資料分析 mahout 機器學習庫 pig 指令碼語言,跟hive類似 oozie 工作流引擎,管理作業執行順序 zoo...

Hadoop生態系統

hadoop生態系統如下圖所示 hdfs hadoop distributed file system 是分布式檔案系統,是針對谷歌開發的分布式檔案系統gfs google file system 的開源實現,是hadoop兩大核心組成部分之一。hdfs有namenode和datanode兩部分,n...