————廈門大學mooc:大資料技術原理與應用
兩大核心:
分布式檔案系統(hdfs)、分布式並行框架(mapreduce)
hadoop的特性:
1.高可靠性:hadoop平台採用冗餘副本機制
2.高效率
3.很好的擴充套件性
4.高容錯性
5.成本低
hadoop的結構:
hive:在hadoop中實現資料倉儲的功能,可支援sql語句(通過hive轉換成mapreduce語句)
pig:實現流式處理,提供類似sql的查詢語言:pig latin(輕量級)
oozie:排程完成不同的作業
zookeeper:負責分布式鎖、集群管理等
hbase:支援隨機讀寫和實時應用
flume:日誌收集,如收集實時性的流
sqoop:用於在hadoop與傳統資料庫之間進行資料傳遞
ambari:部署、管理
3.1分布式檔案系統hdfs
兩大核心問題:分布式儲存->hdfs、分布式處理->mapreduce
hdfs已實現的目標:
相容廉價的硬體裝置、實現流資料的讀寫、支援大資料集、支援簡單的檔案模型、強大的跨平台相容性
hdfs的侷限性:
1.不能滿足實時的資料處理需求(hbase可解決)
2.無法高效儲存大量的小檔案
3.不支援多使用者寫入及仍以修改檔案(只允許追加、不允許修改)
hdfs中的核心概念:塊(降低分布式節點的定址開銷、比普通檔案系統的塊大)
hdfs中採用抽象塊的概念設計的好處:
1.支援大規模檔案儲存
2.簡化系統設計
3.適合資料備份
hdfs中的名稱節點(name node)和資料節點(data node):
名稱節點儲存元資料,元資料報括:
名稱節點的結構:
名稱節點的運作過程:
第二名稱節點(secondary name node) :
1.考慮到效能+占用記憶體:解決editlog不斷增大的問題
2.作為名稱節點的冷備份(冷,意味著名稱節點發生故障後,第二名稱節點還要做資料恢復的工作,必須停止一段時間,不能馬上恢復[在1.0版本中存在的問題])
資料節點:
與客戶端的互動過程:
hdfs體系結構的侷限性:
hdfs的儲存原理:
1.冗餘資料儲存的問題
冗餘因子
帶來優點:a.加快資料傳輸速度(並行)
b.容易檢查資料錯誤
c.保證資料可靠性
2.資料儲存策略問題
資料塊的方式:相應的存放策略
資料塊的讀取:就近讀取
3.資料恢復的問題
名稱節點出錯:第二名稱節點頂替
資料節點出錯:
資料本身出錯:校驗碼檢查,出錯則進行冗餘副本的再次複製
hdfs讀取資料的示例:
hadoop中對應的實現:
其中,dfinputstream與名稱節點打交道;fsdatainputstream與客戶端打交道
讀過程的具體實現:
hdfs寫資料過程:
hdfs的程式設計實踐:
4.1hbase
bigtable:
優點:可支援pb級別的資料、具有非常好的擴充套件效能
hbase:是bigtable的乙個開源實現。
hbase的特點:高可靠、高效能、面向列、可伸縮,是乙個分布式資料庫,可以用來儲存非結構化和半結構化的鬆散資料。
hbase的訪問方式:
4.2hbase的資料模型
Hadoop學習筆記 Hadoop初識
序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...
Hadoop學習筆記
hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...
Hadoop學習筆記
fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...