1、hdfs原理,以及各個模組的職責
2、mr的工作原理
3、map方法是如何呼叫reduce方法的
4、shell
如何判斷檔案是否存在,如果不存在該如何處理?
5、fsimage和edit的區別?
6、hadoop1和hadoop2的區別?
筆試:1、hdfs中的
block
預設儲存幾份?
2、哪個程式通常與nn在乙個節點啟動?並做分析
3、列舉幾個配置檔案優化?
4、寫出你對zookeeper的理解
5、datanode首次加入cluster的時候,如果log報告不相容檔案版本,那需要namenode執行格式化操作,這樣處理的原因
是?6、談談資料傾斜,如何發生的,並給出優化方案
7、介紹一下hbase
過濾器8、mapreduce基本執行過程
9、談談hadoop1和hadoop2的區別
10、hbase集群安裝注意事項
11、記錄包含值域f和值域g,要分別統計相同g值的記錄中不同的f值的數目,簡單編寫過程。
資訊科技****
1、你們的集群規模?
大概400多台機器。主要有專門的運維人員負責維護
hadoop版本 hadoop 2.5.0-cdh5.2.0
2、你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?
mysql
通過python產生 csv檔案,然後有乙個nginix伺服器,把檔案拉到mysql的機器,然後通過通過mysql的命令將.csv檔案裝進資料庫
3、你們業務資料量多大?有多少行資料?(面試了三家,都問這個問題)
我們的資料 : 每個小時的 中間表: 8.6g 一天的話有 207g 儲存 3個月, 大約有18t 的資料量
累積使用者:58,00萬
活躍使用者 :2,00萬
新增使用者: 14萬
4、你們處理資料是直接讀
資料庫的資料還是讀文字資料?
讀取資料庫
5、你們寫hive的hql語句,大概有多少條?
寫的不多
6、你們提交的job任務大概有多少個?這些job執行完大概用多少時間?(面試了三家,都問這個問題)
這個只能看什麼了呢?
只能讓他們看我們的**了。不能說其他的了。對吧
7、hive跟hbase的區別是?
8、你在專案中主要的工作任務是?
9、你在專案中遇到了哪些難題,是怎麼解決的?
10、你自己寫過udf函式麼?寫了哪些?
11、你的專案提交到
job的時候資料量有多大?(面試了三家,都問這個問題)
12、reduce後輸出的資料量有多大?
大資料hadoop面試題精準講解
包括hdfs和mapreduce兩部分。1 hdfs自動儲存多個副本,移動計算。缺點是小檔案訪問占用namenode記憶體,寫入只支援追加,不能隨機修改。它儲存的邏輯空間稱為block,檔案的許可權類似linux。整體架構分三種節點,nn,snn,dn nn 負責讀寫操作儲存metadata own...
大資料 hadoop 經典面試題 三
輸入分片 inputsplit 在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務 儲存的並非資料本身,而是乙個分片長度和乙個記錄資料的位置的陣列,輸入分片 input split 往往和hdfs的bl...
大資料面試題
海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...