hadoop入門培訓:hadoop的起緣和發展史
1.1 緣於搜尋的小象
追本溯源,hadoop起源於nutch,因此學習hadoop就有必要了解一下這種淵源及hadoop的發展簡史。
1.1.1 hadoop的身世
首先我們介紹一下nutch的發展情況,nutch是乙個以lucene為基礎實現的搜尋引擎系統,lucene為nutch提供了文字檢索和索引的api,nutch不僅僅有檢索的功能,還有網頁資料採集的功能。mike cafarella和doug cutting在2023年開始研發nutch系統,然而他們很快發現他們的架構很難擴充套件到數十億級別的網頁規模,因為這樣規模的搜尋引擎系統要涉及網頁的分布式儲存問題及分布式建立索引的問題。恰在此時,google公布了支撐其搜尋引擎服務的檔案系統架構設計——google's distributed filesystem,這種被稱為gfs的基礎架構很快引起了他們的注意,並被成功引入nutch系統中,在nutch中被命名為nutch分布式檔案系統——ndfs,正是ndfs解決了nutch搜尋引擎系統中網頁等海量資料的儲存問題。
hadoop hadoop的各種版本
選型由於apache hadoop是開源的,任何人可以對其修改並作為開源或者商業的產品,所以出現很多發行版本,例如華為發行版 cloudera發行版 cdh 等。hadoop三大發行版本 apache cloudera hortonworks。apache版本最原始 最基礎 的版本,對於入門學習最好...
hadoop hadoop的一次讀取
一次hadoop的read getfilesystem public static filesystem getfilesystem throws exception configuration configuration基本就是乙個空物件。新增了2個配置檔案到資源列表。adddefaultreso...
Hadoop Hadoop的區域性效能改良
hadoop 是對hadoop map reduce的非入侵式優化,通過自定義hadoop框架中的split等函式來提公升,提公升查詢和聯接效能。專案由德國saarland大學jens dittrich教授主持。專案主頁是 hadoop 對hadoop的優化主要是trojan index troja...