《Hadoop權威指南》第一章初始Hadoop

2021-07-29 16:13:59 字數 797 閱讀 4048

我們已經進入了乙個資料大**的時代!(有大量資料需要儲存和處理)

硬碟儲存容量多年來不斷提公升的同時,訪問速度卻沒有與時俱進。

可採用分布式儲存。但是存在兩個問題,1.硬體故障問題。解決辦法:a.冗餘硬碟陣列(raid);b.hadoop的檔案系統hdfs。

2.多數任務需要某種方式結合大部分資料來共同分析。

關係型資料庫的弊端是,需要定址,而定址時間的提公升不敵於傳輸速率的提公升,模型是b樹。

可以將mapreduce視為關係型資料庫的補充。

map reduce適合以批處理需要分析的整個資料集的問題,尤其是動態分析,適合一次寫入多次讀取資料,關係型資料庫適合持續更新的資料。

關係型資料庫和mapreduce的比較

關係型資料庫

mapreducec

資料大小

gbpb

資料訪問

互動式和批處理

批處理更新

多次讀/寫

一次寫入多次讀取

橫向擴充套件

非線性的

線性的結構

靜態模式

動態模式

完整性高

低高效能計算和網格計算採用的方法是將作業分散到集群的各台機器上,這些機器訪問儲存網路所組成的共享檔案系統。比較適合於計算密集型,但是如果所需資料很大,計算節點就需要停止等待。

mapreduce盡量在計算節點上儲存資料,資料本地化是其核心特徵。

mapreduce三大目標:1.為只需要短短幾分鐘或幾個小時就可以完成的左右提供服務;2.執行於乙個內部有告訴網路連線的資料中心內;3.資料中心內的計算機都是可靠的,定製的硬體。

hadoop 第一章 初識Hadoop

多年來,硬碟儲存容量快速增加,但訪問速度 資料從硬碟讀取的速度,確未能與時俱進 從乙個驅動器上讀取所有的資料需要很長時間,寫甚至更慢 乙個很簡單的減少讀取時間的辦法 同時從多個磁碟上讀寫資料 這也是,hadoop 的mapreduce的最大優勢,或者解決的最大的問題。為什麼不能使用資料庫mysql,...

HTTP權威指南學習筆記 第一章HTTP概述

a 瀏覽器從url中解析出伺服器的主機名 b 瀏覽器將伺服器的主機名轉換成伺服器的ip位址 c 瀏覽器將埠號 如果有的話 從url中解析出來 d 瀏覽器建立一條與web伺服器的tcp連線 e 瀏覽器向伺服器傳送一條http請求報文 f 伺服器向瀏覽器回送一條http響應報文 g 關閉連線,瀏覽器顯示...

Hadoop原始碼分析 第一章 Hadoop指令碼

詳細的內容放在附件中,以下列出大綱,以後會陸續有新的章節放出 第一章指令碼部分寫作大綱,包含以下主題 大綱 1.介紹的集群啟動過程並畫出執行序列圖,用一段文字對整體執行過程進行說明 2.說明集群啟動和停止的方式有哪幾種 start all.sh sop all.sh 和start dfs.sh st...