包括hdfs和mapreduce兩部分。
1)hdfs自動儲存多個副本,移動計算。缺點是小檔案訪問占用namenode記憶體,寫入只支援追加,不能隨機修改。
它儲存的邏輯空間稱為block,檔案的許可權類似linux。整體架構分三種節點,nn,snn,dn
nn 負責讀寫操作儲存metadata(ownership permission blockinfo)
snn 負責輔助nn合併fsimage和edits,減少nn啟動時間
dn 負責存資料,每個資料(檔案)分割成若干block,每個block預設3個副本。啟動後像nn傳送心跳保持聯絡
nn儲存的metadata在hdfs啟動後載入到計算機記憶體,除block位置資訊的metadata儲存在os檔案系統中的fsimage檔案中,對metadata的操作日誌儲存在os檔案系統中的edits檔案中。block位置資訊是hdfs啟動後由dn上報nn再載入到記憶體的。
hdfs的安全模式:直到nn完全載入完metadata之前的這段時間。期間不能寫入檔案,dn檢查各個block完整性,並修復。
2)mapreduce
離線計算框架,過程分為splitmap shuffle reduce四個過程
架構節點有:jobtrackertasktracker
reduce輸入的資料就變成了,key+迭代器形式的資料,再進行處理。
經過千鋒講師的細心講解,即將參加面試的大資料工程師們,你們準備好了嗎?機會總是留給有準備的人的。只要你將千鋒教授的大資料技術知識學到手,在專案期努力將自己的技術理論付諸實踐,自己就一定能夠勝任未來的職業。
面試,有時候自信也是一項加分點,所以昂首挺胸,用自己真實的技術來拿下屬於自己的高薪資高待遇的理想工作吧!
大資料 hadoop 經典面試題 三
輸入分片 inputsplit 在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務 儲存的並非資料本身,而是乙個分片長度和乙個記錄資料的位置的陣列,輸入分片 input split 往往和hdfs的bl...
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...
大資料面試題
1.列舉spark 比hadoop 快的原 因 以及現在存在的主要問題 2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題 3.graphx的pregel api 只支援有向圖遍歷 如何實現無xiang 遍歷,描述思路 4.spark 通過yar...