1. 集群多少臺, 資料量多大, 吞吐量是多大, 每天處理多少g的資料?
2. 我們的日誌是不是除了apache的訪問日誌是不是還有其他的日誌?
3. 假設我們有其他的日誌是不是可以對這個日誌有其他的業務分析?這些業務分析都有什麼?
4. 你們的伺服器有多少臺?伺服器的記憶體多大?
5. 你們的伺服器怎麼分布的?(這裡說地理位置分布,最好也從機架方面也談談)
6. 你平常在公司都幹些什麼(一些建議)
7. 你們的集群規模?
537臺。
8. 你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?
處理之前的匯入:通過 hadoop 命令匯入到 hdfs 檔案系統
處理完成之後的匯出:利用 hive 處理完成之後的資料,通過 sqoop 匯出到 mysql 資料庫中,以供報表層使用。
9. 你們業務資料量多大?有多少行資料?
開發時使用的是部分資料,不是全量資料,有將近一億行( 8、 9 千萬,具體不詳,一般開發中也沒人會特別關心這個問題)
10. 你們處理資料是直接讀資料庫的資料還是讀文字資料?
將日誌資料匯入到 hdfs 之後進行處理
11. 你們寫 hive 的 hql 語句,大概有多少條?
不清楚,我自己寫的時候也沒有做過統計
12. 你們提交的 job 任務大概有多少個?這些 job 執行完大概用多少時間?
沒統計過,加上測試的,會有很多
13. 你在專案中主要的工作任務是?
利用 hive 分析資料
14. 你在專案中遇到了哪些難題,是怎麼解決的?
某些任務執行時間過長,且失敗率過高,檢查日誌後發現沒有執行完就失敗,原因出在hadoop 的 job 的 timeout 過短(相對於集群的能力來說),設定長一點即可
15. 你自己寫過 udf 函式麼?寫了哪些?
16. 你的專案提交到 job 的時候資料量有多大?
17. 資料備份, 你們是多少份, 如果資料超過儲存容量, 你們怎麼處理?
18. 怎麼提公升多個 job 同時執行帶來的壓力, 如何優化, 說說思路?
19. 你們用 hbase 儲存什麼資料?
20. 你們的 hive 處理資料能達到的指標是多少?
21. 你們的 hbase 大概在公司業務中(主要是網上**)大概都幾個表,幾個表簇,都存什麼樣的資料?
Hadoop筆試 面試題
該試題來自董成西彙總 1 mapreduce中排序發生在哪幾個階段?這些排序是否可以避免,為什麼?答 乙個mapreduce作業由map階段和reduce階段兩部分組成,這兩階段會對資料排序,從這個意義上說,mapreduce框架本質就是乙個distributed sort。在map階段,在map階...
hadoop面試題整理
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...
hadoop面試題整理 一
一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...