試讀《Hadoop基礎教程》

2021-09-02 04:05:59 字數 1675 閱讀 9862

大資料處理技術領域比較複雜,變化節奏很快,如何學習運用這些技術變得不知從何處下手。

hadoop

是一種開源大資料處理技術框架,已經成為業界大資料處理技術的事實標準。對於想從事大資料處理工作的人來說,是繞不過

hadoop

的。《hadoop

基礎教程》是一本學習

hadoop

入門的圖書,進入大資料處理絕好途徑之一。這本書可以幫助讀者理解什麼是

hadoop

、hadoop

是如何工作的、以及我們如何通過

hadoop

從海量的資料中獲取有價值的資料資訊。

這次試讀是本書的第一章和第四章。第一章詳細介紹了

hadoop

的產生歷史背景,

hadoop

是什麼,業界使用

hadoop

的情況。

hadoop

的作者doug cutting

也是開源網頁搜尋引擎

nutch

的作者,其在開發

nutch同時其受到

google

的兩篇著名的**

gfs與

mapreduce

的啟發,開發了這個分布式大資料處理框架,並以他兒子喜愛的玩具象

hadoop

來命名,也可以這麼說

hadoop

是開源gfs

與mapreduce

的技術實現,設計執行在低成本的硬體做成的集群平台來處理大規模的資料集。在本章中介紹了

hadoop

的組成部分:

hdfs

、mapreduce

。hdfs

是乙個可以儲存極大資料集的檔案系統,它是通過向外擴充套件方式構建的主機集群。

mapreduce

是乙個資料處理正規化,它規範了資料在兩個處理階段(被稱為

map和

reduce

)的輸入和輸出,並將其應用於任意規模的大資料集。

mapreduce

與hdfs

緊密結合,確保在任何情況下,

mapreduce

任務直接在儲存所需資料的

hdfs

節點上執行。

第四章介紹如何使用

hadoop

重要組成部分之一

mapreduce

來解決實際問題。從程式設計角度來看,問題的解決在於如何編寫符合要求的

mapreduce

程式。從本章中我們可以學習

使用hadoop streaming

指令碼語言(

ruby、python

等)編寫

map和

reduce

任務;如何利用

在乙個作業中執行多個

任務;如果利用

distributed cache

在所有節點間共享資料;通過

mapreduce web ui

了解任務狀態資訊和

debug日誌進行高效的作業分析。

總的來說,這本書是一本

hadoop

基礎入門的好書,書中提供了詳細的例項幫助我們更好掌握

hadoop

技術。同時有

hadoop

開發經驗的技術人員也適用,對於可以進一步加深對

hadoop

的理解。

XSL基礎教程

xsl基礎教程 一 http www 128.ibm.com developerworks cn xml ccidnet xslfund index1.html xsl基礎教程 二 http www.ibm.com developerworks cn xml ccidnet xslfund inde...

ps基礎教程

ps基礎教程 軟體簡介 推薦版本 流行多用的版本cs2 cs5,推薦cs3和cs5,cs2版本較舊,不推薦使用。基礎教學目錄 第一課 photoshop工具欄的使用01 第二課 工具欄的使用02 第三課 photoshop圖層 第四課 色彩原理和圖層的混合模式 第五課 圖層的樣式 第六課 圖層蒙版和...

php基礎教程

本教程旨在以最簡單 最易懂的方式,讓讀者對php有個整體上的把握和了解,並具備基本的php程式設計能力。本教程並不講環境搭建和一些技術竅門,但會提供一些示例,方便讀者理解概念。php可以用來作 和手機應用的伺服器介面,很多大型公司的 再用php做。php可以給手機應用提供伺服器介面。以.php結尾的...