今日學習總計

google公司發表了兩篇**：一篇**是「the google file system」，介紹如何實現分布式地儲存海量資料；另一篇**是「mapreduce:simplified data processing on large clusters」，介紹如何對分布式大規模資料進行處理。doug cutting在這兩篇**的啟發下，基於oss（open source software）的思想實現了這兩篇**中的原理，從而hadoop誕生了。

hadoop是一種開源的適合大資料的分布式儲存和處理的平台。作為一種大規模分布式資料處理平台，hadoop已成為許多程式設計師的一項重要技能。

大資料時代已經到來，給我們的生活、工作、思維方式都帶來變革。如何尋求大資料後面的價值，既是機遇又是挑戰。不管是金融資料、還是電商資料、又還是社交資料、遊戲資料… … 這些資料的規模、結構、增長的速度都給傳統資料儲存和處理技術帶來巨大的考驗。幸運的是，hadoop的誕生和所構建成的生態系統給大資料的儲存、處理和分析帶來了曙光。

例如：yahoo! 的垃圾郵件識別和過濾、使用者特徵建模系統；amazon.com（亞馬遜）的協同過濾推薦系統；facebook的web日誌分析；twitter、linkedin的人脈尋找系統；**商品推薦系統、**搜尋中的自定義篩選功能……這些應用都使用到hadoop及其相關技術。

「hadoop能做什麼？」，概括如下：

1）搜尋引擎：這也正是doug cutting設計hadoop的初衷，為了針對大規模的網頁快速建立索引；

2）大資料儲存：利用hadoop的分布式儲存能力，例如資料備份、資料倉儲等；

3）大資料處理：利用hadoop的分布式處理能力，例如資料探勘、資料分析等；

hadoop有三種不同的模式操作，分別為單機模式、偽分布模式和全分布模式。每種模式的詳細介紹以及單機模式的安裝請閱讀我之前的部落格：[hadoop] 在ubuntu系統上一步步搭建hadoop（單機模式），。

今日學習總計

今日學習總計

今日學習總計

今日學習總計

相關推薦