hadoop 權威指南學習筆記ing(1)

2022-03-29 07:59:48 字數 723 閱讀 2005

1. zookeeper: 高可用性的分布式協調服務

分布式困難在於部分失敗:訊息傳遞過程中,到底接收方收到與否,無法確定下來,才有了tcp協議的3次握手這樣比較複雜的協議

2. zk的例項

可以講zk看成是乙個檔案系統,這個檔案系統文友目錄跟檔案,只有 節點的概念,znode這個節點既可以看做是乙個service,包括db例項,thrift service,也可以看做是乙個儲存其他service的容器,所有的這些znode 構成了乙個tree型的結構,而基本的zk操作就是在這些節點上面進行的,包括 create 組,刪除組,加入組,列出組的成員等

關於znode:有2中不同的型別,短暫的和永久的,短暫的在一次客戶端建立組的會話中保持,當會話斷開後,這個znode就結束了,被zk刪除,而永久的znode一直存在

3. 每個znode有乙個與之關聯的acl,zk用來協調服務而不是儲存資料的,所有每個znode的大小不能超過1m,對於znode 的訪問具有原子性

znode建立的時候可以指定順序號,有順序號的znode,可以有相同的名字

4. 觀察機制

znode節點上發生變化時,可以通知其他的客戶端,eg是 乙個客戶端呼叫了zk的exists檢視當前tree中是否有某個znode,同時在上面設定乙個觀察,當其他客戶端建立這個znode後,便可以通知這個客戶端了,可以再讀操作上設定觀察(exists,getdata,getchildren),寫操作上觸發觀察(create,setdata,delete)

Hadoop 權威指南學習筆記(四)

mapreduce 來編寫程式,有乙個特定的流程。首先寫 map 函式和 reduce 函式,最好使用單元測試來確保函式的執行符合預期。然後,寫乙個驅動程式來執行作業,要看這個驅動程式是否可以執行,可以從本地 ide 用乙個小的資料集來執行它。如果驅動程式不能正確執行,就用本地 盡可能正確地處理這些...

Hadoop 權威指南學習筆記(七)

計數器是一種收集作業統計資訊的有效手段,用於質量控制或應用級統計。計數器還可輔助診斷系統故障。hadoop 為每個作業維護若干內建計數器 以描述該作業的各項指標。在任務執行過程中,每個作業的所有任務的結果都會被任務計數器聚集起來。計數器由其關聯任務維護,井定期傳到 tasktracker 再由 ta...

《Hadoop權威指南》索引筆記

2015年5月2日 hadoop檔案格式 一 hdfs 1.hdfs一次寫入,多次讀取,每次分析應涉及大部分資料 批處理才有優勢 2.hdfs缺點 低延遲訪問 大量小檔案 使用者修改 3.hdfs塊大小 預設64m,但實際工作中往往調大 最小化定址開銷 但不能太大,一般乙個map處理乙個block,...