《Hadoop權威指南》閱讀記錄2

2021-06-13 17:27:23 字數 815 閱讀 3503

第3章  hadoop分布式檔案系統

hadoop distributed filesystem

以流式資料訪問模式來儲存超大檔案

hadoop的構建思路:一次寫入,多次讀取時最高效的訪問模式,讀取整個資料集的時間延遲,比讀取第一條記錄的時間延遲更重要。

目前,寫操作總是將資料新增在檔案的末尾,他不支援具有多個寫入者的操作,也不支援在檔案的任意位置進行修改。它們相對低效,以後可能會支援這些操作。

磁碟塊一般為512位元組,hdfs塊預設64mb

hdfs塊比磁碟塊大,其目的是最小化定址開銷,降低定址時間佔傳輸時間的比例,以後隨著磁碟驅動器傳輸速率的提公升,塊的大小將被設定的更大;但受限於map任務的處理速度,塊不宜設定的太大,否則任務數太少,作業的執行速度會比較慢。

hdfs中fsck指令可以顯示塊資訊,  %hadoop fsck / -files -blocks

hdfs集群有兩類節點——管理者-工作者模式——乙個namenode(管理者)和多個datanode(工作者)

namenode管理檔案系統的命名空間,維護著檔案系統樹及整棵樹內所有的檔案和目錄。以兩個檔案形式永久儲存——命名空間映象檔案和編輯日誌檔案,其中記錄著每個檔案中各個塊所在的資料節點資訊,但並不永久儲存塊的位置資訊,因為這些資訊會在系統啟動時由資料節點重建。

client通過提供檔案系統介面,實現與namenode和datanode的互動

datanode是檔案系統的工作節點,根據需要儲存並檢索資料塊,並定期向namenode傳送他們所儲存的塊的列表

namenode容錯機制——1、備份那些組成檔案系統元資料持久狀態的檔案;2、執行乙個輔助namenode

hadoop權威指南閱讀 一

1.任務 查詢所有年份最高氣溫 map的目的是吐出點對,年份 氣溫 output.collect new text year new intwritable airtemperature key可以重複,例如可以是 1950 23 1950 22 1950 28 2 maxtemperaturere...

Hadoop 權威指南

rpm包和deb包是兩種linux系統下最常見的安裝包格式,在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上,deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包,例如在f...

hadoop 權威指南 HBase

hbase原理 基本概念 基本架構 應用將資料儲存在帶標籤的表中,表的單元格是行和列座標的座標交集,他們有版本號。在預設情況下版本號是單元格插入時hbase自動分配的時間戳。表的單元格內容是乙個未解釋的位元組陣列 錶行的鍵也是位元組陣列。行鍵是表的主鍵,被用來對錶行進行排序。錶行的列分組,形成列族 ...