Hadoop學習筆記

2022-08-17 15:39:13 字數 2489 閱讀 5218

————廈門大學mooc:大資料技術原理與應用

兩大核心:

分布式檔案系統(hdfs)、分布式並行框架(mapreduce)

hadoop的特性:

1.高可靠性:hadoop平台採用冗餘副本機制

2.高效率

3.很好的擴充套件性

4.高容錯性

5.成本低

hadoop的結構:

hive:在hadoop中實現資料倉儲的功能,可支援sql語句(通過hive轉換成mapreduce語句)

pig:實現流式處理,提供類似sql的查詢語言:pig latin(輕量級)

oozie:排程完成不同的作業

zookeeper:負責分布式鎖、集群管理等

hbase:支援隨機讀寫和實時應用

flume:日誌收集,如收集實時性的流

sqoop:用於在hadoop與傳統資料庫之間進行資料傳遞

ambari:部署、管理

3.1分布式檔案系統hdfs

兩大核心問題:分布式儲存->hdfs、分布式處理->mapreduce

hdfs已實現的目標:

相容廉價的硬體裝置、實現流資料的讀寫、支援大資料集、支援簡單的檔案模型、強大的跨平台相容性

hdfs的侷限性:

1.不能滿足實時的資料處理需求(hbase可解決)

2.無法高效儲存大量的小檔案

3.不支援多使用者寫入及仍以修改檔案(只允許追加、不允許修改)

hdfs中的核心概念:塊(降低分布式節點的定址開銷、比普通檔案系統的塊大)

hdfs中採用抽象塊的概念設計的好處:

1.支援大規模檔案儲存

2.簡化系統設計

3.適合資料備份

hdfs中的名稱節點(name node)和資料節點(data node):

名稱節點儲存元資料,元資料報括:

名稱節點的結構:

名稱節點的運作過程:

第二名稱節點(secondary name node) :

1.考慮到效能+占用記憶體:解決editlog不斷增大的問題

2.作為名稱節點的冷備份(冷,意味著名稱節點發生故障後,第二名稱節點還要做資料恢復的工作,必須停止一段時間,不能馬上恢復[在1.0版本中存在的問題])

資料節點:

與客戶端的互動過程:

hdfs體系結構的侷限性:

hdfs的儲存原理:

1.冗餘資料儲存的問題

冗餘因子

帶來優點:a.加快資料傳輸速度(並行)

b.容易檢查資料錯誤

c.保證資料可靠性

2.資料儲存策略問題

資料塊的方式:相應的存放策略

資料塊的讀取:就近讀取

3.資料恢復的問題

名稱節點出錯:第二名稱節點頂替

資料節點出錯:

資料本身出錯:校驗碼檢查,出錯則進行冗餘副本的再次複製

hdfs讀取資料的示例:

hadoop中對應的實現:

其中,dfinputstream與名稱節點打交道;fsdatainputstream與客戶端打交道

讀過程的具體實現:

hdfs寫資料過程:

hdfs的程式設計實踐:

4.1hbase

bigtable:

優點:可支援pb級別的資料、具有非常好的擴充套件效能

hbase:是bigtable的乙個開源實現。

hbase的特點:高可靠、高效能、面向列、可伸縮,是乙個分布式資料庫,可以用來儲存非結構化和半結構化的鬆散資料。

hbase的訪問方式:

4.2hbase的資料模型

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...

Hadoop學習筆記

fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...