大資料處理技術領域比較複雜,變化節奏很快,如何學習運用這些技術變得不知從何處下手。
hadoop
是一種開源大資料處理技術框架,已經成為業界大資料處理技術的事實標準。對於想從事大資料處理工作的人來說,是繞不過
hadoop
的。《hadoop
基礎教程》是一本學習
hadoop
入門的圖書,進入大資料處理絕好途徑之一。這本書可以幫助讀者理解什麼是
hadoop
、hadoop
是如何工作的、以及我們如何通過
hadoop
從海量的資料中獲取有價值的資料資訊。
這次試讀是本書的第一章和第四章。第一章詳細介紹了
hadoop
的產生歷史背景,
hadoop
是什麼,業界使用
hadoop
的情況。
hadoop
的作者doug cutting
也是開源網頁搜尋引擎
nutch
的作者,其在開發
nutch同時其受到
的兩篇著名的**
gfs與
mapreduce
的啟發,開發了這個分布式大資料處理框架,並以他兒子喜愛的玩具象
hadoop
來命名,也可以這麼說
hadoop
是開源gfs
與mapreduce
的技術實現,設計執行在低成本的硬體做成的集群平台來處理大規模的資料集。在本章中介紹了
hadoop
的組成部分:
hdfs
、mapreduce
。hdfs
是乙個可以儲存極大資料集的檔案系統,它是通過向外擴充套件方式構建的主機集群。
mapreduce
是乙個資料處理正規化,它規範了資料在兩個處理階段(被稱為
map和
reduce
)的輸入和輸出,並將其應用於任意規模的大資料集。
mapreduce
與hdfs
緊密結合,確保在任何情況下,
mapreduce
任務直接在儲存所需資料的
hdfs
節點上執行。
第四章介紹如何使用
hadoop
重要組成部分之一
mapreduce
來解決實際問題。從程式設計角度來看,問題的解決在於如何編寫符合要求的
mapreduce
程式。從本章中我們可以學習
使用hadoop streaming
指令碼語言(
ruby、python
等)編寫
map和
reduce
任務;如何利用
在乙個作業中執行多個
任務;如果利用
distributed cache
在所有節點間共享資料;通過
mapreduce web ui
了解任務狀態資訊和
debug日誌進行高效的作業分析。
總的來說,這本書是一本
hadoop
基礎入門的好書,書中提供了詳細的例項幫助我們更好掌握
hadoop
技術。同時有
hadoop
開發經驗的技術人員也適用,對於可以進一步加深對
hadoop
的理解。
XSL基礎教程
xsl基礎教程 一 http www 128.ibm.com developerworks cn xml ccidnet xslfund index1.html xsl基礎教程 二 http www.ibm.com developerworks cn xml ccidnet xslfund inde...
ps基礎教程
ps基礎教程 軟體簡介 推薦版本 流行多用的版本cs2 cs5,推薦cs3和cs5,cs2版本較舊,不推薦使用。基礎教學目錄 第一課 photoshop工具欄的使用01 第二課 工具欄的使用02 第三課 photoshop圖層 第四課 色彩原理和圖層的混合模式 第五課 圖層的樣式 第六課 圖層蒙版和...
php基礎教程
本教程旨在以最簡單 最易懂的方式,讓讀者對php有個整體上的把握和了解,並具備基本的php程式設計能力。本教程並不講環境搭建和一些技術竅門,但會提供一些示例,方便讀者理解概念。php可以用來作 和手機應用的伺服器介面,很多大型公司的 再用php做。php可以給手機應用提供伺服器介面。以.php結尾的...