Hadoop hadoop的起緣和發展史

hadoop入門培訓：hadoop的起緣和發展史

1.1　緣於搜尋的小象

追本溯源，hadoop起源於nutch，因此學習hadoop就有必要了解一下這種淵源及hadoop的發展簡史。

1.1.1　hadoop的身世

首先我們介紹一下nutch的發展情況，nutch是乙個以lucene為基礎實現的搜尋引擎系統，lucene為nutch提供了文字檢索和索引的api，nutch不僅僅有檢索的功能，還有網頁資料採集的功能。mike cafarella和doug cutting在2023年開始研發nutch系統，然而他們很快發現他們的架構很難擴充套件到數十億級別的網頁規模，因為這樣規模的搜尋引擎系統要涉及網頁的分布式儲存問題及分布式建立索引的問題。恰在此時，google公布了支撐其搜尋引擎服務的檔案系統架構設計——google's distributed filesystem，這種被稱為gfs的基礎架構很快引起了他們的注意，並被成功引入nutch系統中，在nutch中被命名為nutch分布式檔案系統——ndfs，正是ndfs解決了nutch搜尋引擎系統中網頁等海量資料的儲存問題。

Hadoop hadoop的起緣和發展史

hadoop hadoop的各種版本

hadoop hadoop的一次讀取

Hadoop Hadoop的區域性效能改良

Hadoop hadoop的起緣和發展史

hadoop hadoop的各種版本

hadoop hadoop的一次讀取

Hadoop Hadoop的區域性效能改良

相關推薦