對hadoop生態系統學習及實踐有很長一段時間了,最早接觸hadoop生態系統是在2023年年底,那時正在為公司乙個專案研究搜尋引擎,最後選定nutch搜尋引擎作為研究物件,在研究nutch的過程中就與hadoop結下了不解之緣。
在實踐hadoop過程中,遇到過很多問題,也迷茫過,不知道hadoop生態系統到底應用在那些業務場景中?不知道在眾多的版本中到底採用哪個版本?不知道hadoop生態系統對硬體的要求是什麼?不知道hadoop集群硬體及軟體到底要怎麼規劃?不知道怎麼去調優hadoop集群?不知道hadoop集群上線後怎麼運維維護?等等一系列問題困擾著我。
我帶著這些問題,不斷在網上找一些相關的資料,但網上的資料比較零散,不能系統幫助我,也參加過一些hadoop生態系統的培訓,交流會議,請教網友,走了不少彎路,最後慢慢的走上了hadoop這條路。
最近想整理下hadoop生態系統的知識結構,也同時鞏固下自己對hadoop的認識,想把自己學習過的資料,整理一些博文跟網友分享下,我會先整理乙個目錄結構,之後按目錄結構不斷分享hadoop生態系統相關的知識,到時有不正確的,望大牛指出。
Hadoop生態系統
摘要 介紹hadoop生態系統,從hadoop生態系統有什麼成員,成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。hadoop生態圖,通俗地說,就是hadoop核心模組和衍生的子專案。一幅hadoop生態圖,讓我想到了兩個問題。問題一 hadoop生態系統包括哪些成員?每個...
Hadoop 生態系統
hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。2 高擴充套件性 在集群間分配任務資料,可方便的擴充套件數以乾計的節點。3 高效性 在mapreduce...
Hadoop生態系統
hadoop生態系統 廣義的hadoop hdfs 檔案儲存系統基於硬碟 yarn 資源排程框架 mapreduce 分布式處理框架 hive 資料倉儲 rconnections 資料分析 mahout 機器學習庫 pig 指令碼語言,跟hive類似 oozie 工作流引擎,管理作業執行順序 zoo...