1.廣播變數和driver 中定義的普通變數的區別
2.資料傾斜 優化的方式,怎樣定位問題,有什麼樣的解決方案,有沒有調參的方式能夠解決的
3.模型:
(1)怎樣評判彙總層的資料模型的好壞
(2)怎樣應對業務變化
(3)分層的原則
4.實時流join怎麼做的,採用實時流相互等待借助外部快取join,如果資料本身有重複,會進行多次join怎麼解決的,如果資料延遲時間特別長問題怎麼解決的
5.spark trasform操作和action操作有什麼區別,寬依賴和窄依賴怎麼劃分的,為什麼需要在寬依賴處進行stage劃分,為什麼需要進行shuffle操作
6.排序演算法(快排)
7.mysql事務隔離級別
8.innodb 和 myisam區別
9.job啟動慢可能的原因是什麼
10.各種資料傾斜,map端傾斜,join傾斜,rduce傾斜 及解決方案(引數角度,和**角度)
11.倉庫建模方法
(1)維度模型(模型設計有什麼原則,怎樣保證一致性,模型分層原則,主題是怎麼劃分的,為什麼要劃分四層有什麼好處,什麼是星型模型和雪花模型)
(2)er模型
(3)anchor模型
(4)data vault模型
anchor模型跟data vault模型對比雪花模型有什麼區別
倉庫建模為什麼要採用維度建模而不是其他模型,各模型有什麼優缺點
12.shuffer過程,hbase架構與資料檢索過程
部分面試題
1.請程式設計遍歷頁面上所有textbox控制項並給它賦值為string.empty?答 foreach system.windows.forms.control control in this.controls 2.請程式設計實現乙個氣泡排序演算法?答 int array new int int ...
部分面試題
get與post 通訊的區別 get 請求能快取,post 不能 post 相對 get 安全一點點,因為get 請求都包含在 url 裡,且會被瀏覽器儲存歷史紀錄,post 不會,但是在抓包的情況下都是一樣的。post 可以通過 request body來傳輸比 get 更多的資料,get 沒有這...
面試題 網路部分
http 響應碼 301 和 302 代表的是什麼?有什麼區別?301,302都是http狀態的編碼,都代表著某個url發生了轉移 區別 301 redirect 代表永久性轉移 302 redirect 代表暫時性轉移 forward 和 redirect 的區別?代表了兩種請求 方式 直接 fo...