今日學習總計

2022-09-14 10:36:10 字數 985 閱讀 4767

google公司發表了兩篇**:一篇**是「the google file system」,介紹如何實現分布式地儲存海量資料;另一篇**是「mapreduce:simplified data processing on large clusters」,介紹如何對分布式大規模資料進行處理。doug cutting在這兩篇**的啟發下,基於oss(open source software)的思想實現了這兩篇**中的原理,從而hadoop誕生了。

hadoop是一種開源的適合大資料的分布式儲存和處理的平台。作為一種大規模分布式資料處理平台,hadoop已成為許多程式設計師的一項重要技能。

大資料時代已經到來,給我們的生活、工作、思維方式都帶來變革。如何尋求大資料後面的價值,既是機遇又是挑戰。不管是金融資料、還是電商資料、又還是社交資料、遊戲資料… … 這些資料的規模、結構、增長的速度都給傳統資料儲存和處理技術帶來巨大的考驗。幸運的是,hadoop的誕生和所構建成的生態系統給大資料的儲存、處理和分析帶來了曙光。

例如:yahoo! 的垃圾郵件識別和過濾、使用者特徵建模系統;amazon.com(亞馬遜)的協同過濾推薦系統;facebook的web日誌分析;twitter、linkedin的人脈尋找系統;**商品推薦系統、**搜尋中的自定義篩選功能……這些應用都使用到hadoop及其相關技術。

「hadoop能做什麼?」 ,概括如下:

1)搜尋引擎:這也正是doug cutting設計hadoop的初衷,為了針對大規模的網頁快速建立索引;

2)大資料儲存:利用hadoop的分布式儲存能力,例如資料備份、資料倉儲等;

3)大資料處理:利用hadoop的分布式處理能力,例如資料探勘、資料分析等;

hadoop有三種不同的模式操作,分別為單機模式、偽分布模式和全分布模式。每種模式的詳細介紹以及單機模式的安裝請閱讀我之前的部落格:[hadoop] 在ubuntu系統上一步步搭建hadoop(單機模式),。

今日學習總計

1.1 numpy numpy常用資料結構 numpy中常用的資料結構是ndarray格式 使用array函式建立,語法格式為array 列表或元組 可以使用其他函式例如arange linspace zeros等建立 numpy常用方法 ndim 返回int,表示ndarray的維度 shape ...

今日學習總計

有以下兩個重要的步驟來使系統的廣播意圖配合廣播接收器工作。建立廣播接收器 註冊廣播接收器 還有乙個附加的步驟,要實現自定義的意圖,你必須建立並廣播這些意圖。建立廣播接收器 廣播接收器需要實現為broadcastreceiver類的子類,並重寫onreceive 方法來接收以intent物件為引數的訊...

今日學習總計

bean 的裝配可以理解為依賴關係注入,bean 的裝配方式也就是 bean 的依賴注入方式。spring 容器支援多種形式的 bean 的裝配方式,如基於 xml 的 bean 裝配 基於 annotation 的 bean 裝配和自動裝配等。spring 基於 xml 的裝配通常採用兩種實現方式...