大資料學習計畫

2021-09-26 23:51:21 字數 453 閱讀 2583

參考

utm_source=qq&utm_medium=social&utm_oi=931661292540837888&hb_wx_block=1

第一階段:學習linus基本使用以及高併發負載均衡

第二階段:hadoop學習

第三階段:zookeeper課程

第四階段:hbase課程:適合大資料的實時查詢

第五階段:第五階段:cm+cdh集群管理課程

第六階段:資料倉儲hive課程

第七階段:sqoop課程:適用於在關聯式資料庫與hdfs之間進行雙向資料轉換

第八階段:flume課程:flume是cloudera公布的分布式日誌收集系統

第九階段:kafka課程:訊息系統

第十階段:storm課程:解決實時計算的,與hadoop框架搭配使用

第十一階段:spark課程:spark是一款高效能的分布式計算框架

大資料的學習計畫

大資料這個東西很火,但是要學的東西很多,這是它的缺點。我的計畫是 1 先找乙個資料庫開發崗位,將基本功打牢,了解資料倉儲 資料集市 資料庫 資料包表 維護 開發在企業中真實的運作流程。2 幾個月後辭職,在本科的一年半里,自己搭乙個最小hadoop集群,學習hadoop開發。做一些真實的mr程式,並且...

大資料學習

1.資料清洗 洗掉髒資料,對資料最後一步審核和糾正,包括一致性檢查,無效資料,不完整資料,衝突資料,重複資料等的處理,計算機自動完成。2.資料傾斜 資料傾斜就是我們在計算資料的時候,資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些資料的計算速度遠遠低於平均計算速度,導致整個計算過...

大資料學習

hadoop的hdfs和mapreduce子框架主要是針對大資料檔案來設計的,在小檔案的處理上不但效率低下,而且十分消耗記憶體資源 每乙個小檔案占用乙個block,每乙個block的元資料都儲存在namenode的記憶體裡 解決辦法通常是選擇乙個容器,將這些小檔案組織起來統一儲存。hdfs提供了兩種...