大資料系列(一)hadoop生態圈基礎知識

2021-09-20 18:47:27 字數 918 閱讀 8864

15年做了大資料,跳槽之後,長達2年多,不停遊走在web、手機端、後端、伺服器,幾乎沒在碰過大資料,不知不覺hadoop生態圈愈發完善。本來自己做了自己的部落格**,奈何很久沒維護,伺服器到期了,然後涼涼斯密達。所以在csdn從頭來過,收穫良多,所以寫一篇大資料系列文章,記錄一下所有的知識,文章會包含入門的基礎知識以及部分的實戰演練。另外,如果有對前後端以及伺服器整體devops感興趣的,可以聯絡我哦,大家共同進步。

可以檢視博主這篇部落格,對hdfs稍作補充:

hdfs源自於谷歌爸爸的gfs**,該**發表於2023年10月,有興趣的小夥伴可以檢視

hdfs的特點便是:極強的擴充套件性、優秀的容錯性、海量資料儲存

架構圖如下:

yarn負責整個集群資源的管理和排程

yarn具有擴充套件性、容錯性、相容pig、hive、hbase、spark、solr等多個大資料框架並可以實現資源統一排程

可以檢視博主這篇部落格,有對yarn做一些補充:

wordcount的使用例子參考博主此篇部落格:

源之於谷歌爸爸的mapreduce**,**發表於2023年12月,谷歌出品,必屬精品,有興趣可自行搜尋

其特點依然是:擴充套件性、容錯性、超大資料量離線處理(基於程序、大批量的處理,所以無法做到實時處理)

計算過程分為map(對映、分批)、reduce(合併計算)兩個步驟,下圖是wordcount處理過程:

參考博主的本篇部落格:

Hadoop生態圈普及

大資料一路走來,從最開始的hadoop1.0 逐漸發展到hadoop2.0。hadoop的橫空出世引領了大資料行業技術的發展。逐漸以分布式並行離線處理框架mapreduce 分布式檔案儲存系統hdfs以及排程系統yarn為中心,發展出龐大的生態圈,比如hive hbase zookeeper等等,豐...

Hadoop生態圈初識

一 簡介 hadoop是乙個由apache 會所開發的分布式系統基礎架構。hadoop的框架最核心的設計就是 hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。二 hdfs hadoop distributed file system,簡稱hd...

大資料入門基礎Hadoop生態圈介紹 HDFS

由於單機的儲存能力有限,難以儲存日益增長的資料,於是我們便將資料分配到多個機器中進行儲存,因此我們迫切需要一種系統方便管理和維護多台機器上的儲存資料的檔案,這就是分布式檔案系統。hdfs只是分布式檔案系統中的一種。優點 1 高容錯性 1 資料自動儲存多個副本。它通過增加副本的形式,提高容錯性。2 某...