hadoop而言,通常都需要具備以下技能或知識
a. hadoop分布式集群的平台搭建
b. hadoop分布式檔案系統hdfs的原理理解及使用
c. hadoop分布式運算框架mapreduce的原理理解及程式設計
d. hive資料倉儲工具的熟練應用
e. flume、sqoop、oozie等輔助工具的熟練使用
f. shell/python等指令碼語言的開發能力
重點元件:
hdfs:分布式檔案系統
mapreduce:分布式運算程式開發框架
hive:基於大資料技術(檔案系統+運算框架)的sql資料倉儲工具
hbase:基於hadoop的分布式海量資料庫
zookeeper:分布式協調服務基礎元件
mahout:基於mapreduce/spark/flink等分布式運算框架的機器學習演算法庫
oozie:工作流排程框架
sqoop:資料匯入匯出工具
flume:日誌資料採集框架
1) 資料採集:定製開發採集程式,或使用開源框架flume
2) 資料預處理:定製開發mapreduce程式執行於hadoop集群
3) 資料倉儲技術:基於hadoop之上的hive
4) 資料匯出:基於hadoop的sqoop資料匯入匯出工具
5) 資料視覺化:定製開發web程式或使用kettle等產品
6) 整個過程的流程排程:hadoop生態圈中的oozie工具或其他類似開源產品
週末訓練 征途
記憶體限制 256mib 時間限制 1000ms 標準輸入輸出 題目型別 傳統 評測方式 文字比較 pine 開始了從 s 地到 t 地的征途。從 s 地到 t 地的路可以劃分成 n 段,相鄰兩段路的分界點設有休息站。pine 計畫用 m 天到達 t 地。除第 m 天外,每一天晚上 pine 都必須...
Linux征途 Linux簡介
學習linux我覺得有必要知道linux的由來,簡單說下linux的歷史。linux是由林納斯 本納第克特 托瓦茲開發初始版本,應該說是核心。linux的完善依靠社群的大佬,林納斯大佬發布後,很多的專業人士提出很多的優化方案,在1994年才發布linux 1.0版本。1969 1970 貝爾實驗室開...
開始我的BLOG征途
我決定從今天開始,以此 我的部落格為根據地,認真地寫下我學習的過程和心得體會,記錄下學習過程中的點點滴滴,認真走程式開發之路.以前總疏於還日記,隨著日後的學習,才感到寫日記的重要,人的記憶力是有限的,當時可以理解的,但並一能記住.能記住的並不一定能理解,所以寫下當時的感受和理解是非常重要的.若是寫在...