hadoop 大資料面試題（11）比較好

1、hdfs原理，以及各個模組的職責

2、mr的工作原理

3、map方法是如何呼叫reduce方法的

4、shell

如何判斷檔案是否存在，如果不存在該如何處理？

5、fsimage和edit的區別？

6、hadoop1和hadoop2的區別？

筆試：1、hdfs中的

block

預設儲存幾份？

2、哪個程式通常與nn在乙個節點啟動？並做分析

3、列舉幾個配置檔案優化？

4、寫出你對zookeeper的理解

5、datanode首次加入cluster的時候，如果log報告不相容檔案版本，那需要namenode執行格式化操作，這樣處理的原因

是？6、談談資料傾斜，如何發生的，並給出優化方案

7、介紹一下hbase

過濾器8、mapreduce基本執行過程

9、談談hadoop1和hadoop2的區別

10、hbase集群安裝注意事項

11、記錄包含值域f和值域g，要分別統計相同g值的記錄中不同的f值的數目，簡單編寫過程。

資訊科技****

1、你們的集群規模？

大概400多台機器。主要有專門的運維人員負責維護

hadoop版本 hadoop 2.5.0-cdh5.2.0

2、你們的資料是用什麼匯入到資料庫的？匯入到什麼資料庫？

mysql

通過python產生 csv檔案，然後有乙個nginix伺服器，把檔案拉到mysql的機器，然後通過通過mysql的命令將.csv檔案裝進資料庫

3、你們業務資料量多大？有多少行資料？(面試了三家，都問這個問題)

我們的資料 : 每個小時的中間表： 8.6g 一天的話有 207g 儲存 3個月，大約有18t 的資料量

累積使用者：58,00萬

活躍使用者：2,00萬

新增使用者： 14萬

4、你們處理資料是直接讀

資料庫的資料還是讀文字資料？

讀取資料庫

5、你們寫hive的hql語句，大概有多少條？

寫的不多

6、你們提交的job任務大概有多少個？這些job執行完大概用多少時間？(面試了三家，都問這個問題)

這個只能看什麼了呢？

只能讓他們看我們的**了。不能說其他的了。對吧

7、hive跟hbase的區別是？

8、你在專案中主要的工作任務是？

9、你在專案中遇到了哪些難題，是怎麼解決的？

10、你自己寫過udf函式麼？寫了哪些？

11、你的專案提交到

job的時候資料量有多大？(面試了三家，都問這個問題)

12、reduce後輸出的資料量有多大？

大資料hadoop面試題精準講解

包括hdfs和mapreduce兩部分。1 hdfs自動儲存多個副本，移動計算。缺點是小檔案訪問占用namenode記憶體，寫入只支援追加，不能隨機修改。它儲存的邏輯空間稱為block，檔案的許可權類似linux。整體架構分三種節點，nn,snn,dn nn 負責讀寫操作儲存metadata own...

大資料 hadoop 經典面試題三

輸入分片 inputsplit 在進行map計算之前，mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務儲存的並非資料本身，而是乙個分片長度和乙個記錄資料的位置的陣列，輸入分片 input split 往往和hdfs的bl...

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案，各存放50億個url，每個url各佔64位元組，記憶體限制是4g，讓你找出a b檔案共同的url？方案1 可以估計每個檔案安的大小為50g 64 320g，遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

hadoop 大資料面試題（11） 比較好

大資料hadoop面試題精準講解

大資料 hadoop 經典面試題 三

大資料面試題

相關推薦

hadoop 大資料面試題（11）比較好

大資料 hadoop 經典面試題三