課程說明項內容
課程型別
視屏課程
內容型別
hadoop
課程名稱
hadoop從初級到高手
位址時長1500
費用免費
學習心得
更清楚了hadoop儲存、計算、排程之間的關係,hdfs不只是儲存,更重要的工作是檔案管理,自動實現分布式的檔案讀、寫、存、備份、容錯等功能
理解了mapreduce計算的完整過程,這有利於以後資料處理任務開發時的排錯和優化
了解了資料處理中常見的資料傾斜問題發生的原理和處理方式
終於知道了為什麼都說hadoop擴充套件性強,成本低,易管理,高可用,強容錯。通過把檔案、儲存甚至是計算資源切分成更小單位後重組的方式,實現了部分變更不影響整體,避免了部分問題引發全面崩潰,實現了部分新增擴充套件整體資源上限的能力。這就像是把原先的一根鏈條變成了一張大網,鏈條任意緩解斷裂,整個鏈條就斷裂了。但一張網的某些節點斷裂,並不會太影響這張網的作用。能這樣做,也是因為資源充足,可以冗餘備份。
課程目錄和概要
一.hadoop的部署和配置
1.hadoop組成
2.hadoop的部署模式
3.hadoop的管理
4.hadoop資料寫入流程剖析
5.各種壓縮演算法效能評測
二.mapreduce的程式設計
1.map負責變換(對資料切分轉換為kv格式)
2.reduce負責聚合(對kv資料按k進行聚合)
3.shuffle負責混洗(核心機制:資料分割槽,排序,區域性聚合,快取,拉取,再合併 排序)
三.map和reduce詳解
1.排序
2.連線查詢(內連線,外連線,全連線)
3.資料傾斜(大量的資料聚集在少數幾個節點運算)
4.資料傾斜解決方法
四.mapreduce全流程詳解
1.inputformat(輸入)
2.recordreader(閱讀器)
3.map
4.reduce
5.outputformat
6.writer
五.hadoop的高可用(ha)
hadoop的ha(高可用)實現方式就是 冗餘+故障自動轉移
異地多活,乙個出故障了,立即切換另乙個,兩個同時出故障機率太小
大資料從0到一 Hadoop
系統瓶頸 google大資料技術 儲存容量 bigtable 讀寫速度 gfs 計算效率 mapreduce 在官方 進行學習 在官方 學習英文文件進行學習 專案實戰對知識點進行鞏固和融會貫通 社群活動 meetup infoq hadoop 分布式儲存 計算 可拓展 穩定的開源框架 可以做 搭建大...
從0開始的Python學習008變數
區域性變數 在我們定義函式的過程中,函式內外具有相同名稱的變數是沒有任何關係的。變數的名稱對於函式來說是區域性的,而它所在的 塊就是它的作用域。使用區域性變數 區域性變數 deffunc x print x is x x 2 print changed local x to x x 5func x ...
從初級程式設計師到CEO的蛻變
從初級程式設計師到ceo的蛻變 現在對程式設計師的普遍 暗黑 看法是,這是一群所有時間都窩乙個黑暗的房間裡,與數百萬行 為伍,也許甚至不具備人際交往能力的 程式猿 好吧,雖然我也有程式設計背景,所以可能會有點偏頗,但是這顯然是無稽之談。php程式設計師不僅能力卓絕 是創造現代生活和商業的基石,而且還...