序言:
資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種:第
一、大訪問量請求;第
二、大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何實現應用端的負載均衡這個不是我這裡討論的話題。大訪問量將會帶來大資料量的處理,因為使用者的請求一般都會帶來後端的處理,於是給以使用者的響應,那麼後端的處理比較牽扯到資料的處理。對於乙個大訪問量的系統,那麼它的資料量必定會是龐大的,那麼如何很好的處理這些龐大的資料,hadoop是其中一種處理方式,也是當前比較流行的處理方式。故而趁工作之餘學習一下hadoop,從而豐富一下解決問題的方法。
hadoop的核心模組是mapreduce以及hdfs(hadoop filesystem)。隨著hadoop的發展也出現了其他的一些模組例如:pig、hive以及hbase等等,通過這些模組達到豐富了hadoop的生態圈。
mapreduce就是對資料分析處理的乙個過程,它基於鍵值對的方式來分析處理資料,從而達到資料的分塊處理,而hdfs是乙個分布式檔案系統。通過這兩個模組就可以完成對資料的分析以及儲存。mapreduce對資料的處理分為兩個部分,乙個是map方法所處理的過程,這裡主要是對資料進行鍵/值處理,需要確定資料的哪些屬性為鍵,哪些屬性為值,所以這裡的鍵/值對資料並沒有要求,而是開發人員自己挑選,顧從這裡可以看出hadoop對待處理資料的結構沒有限制。那麼另乙個是reduce方法,這裡就是收集map分類好的資料,進行分析然後進行處理。那麼這兩個方法的呼叫全部都丟給hadoop的乙個job任務來執行。這就是hadoop處理資料的乙個基本過程。
hadoop從儲存的資料型別是非結構化或者是半結構化的儲存,而關係型資料庫是儲存結構化的資料。下面一張表描述了它們兩者間的區別:
從該表中可以看出hadoop適合做一次寫入多次讀取的資料處理,並不適合實時更新的資料,通過這張表就可以很好地定位hadoop在開發中所處理的問題。
Hadoop到底能做什麼?怎麼用hadoop?
調研hadoop頗久,就是想知道hadoop是什麼?hadoop能做什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來 濃縮了我幾十頁的調研方案啊!hadoop是什麼?hadoop是乙個開源的框架,可編寫和執行分布式應用,處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合...
Hadoop學習筆記
hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...
Hadoop學習筆記
fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...