挑一最擅長的專案說說
1.資料清洗的mapreduce程式
2.spark和hadoop的區別
3.mapreduce的工作流程
4.shuffle機制
5.資料傾斜
6.資料結構:二叉樹 第n層的節點數 深度為h的節點數
7.linux的基本命令 編輯 複製 刪除
8.mysql題:
name kecheng fenshu
張三 語文 81
張三 數學 75
李四 語文 76
李四 數學 90
王五 語文 81
王五 數學 100
王五 英語 90;、
求出每科的最高成績(主要考察分桶)
9.sparkstreaming處理實時資料流的原理
10.spark提交任務的運算元
11.第二專案
面試官(小姐姐哦)的建議:
會一些簡單的演算法
sql一定要會
spark比較重要
mapreduce一定要會
spark相關的專案很重要
會flink更好
後台開發面試要點(騰訊互娛事業群)
給自己還有各位準備技術面 特別是後台方向 的同學記錄了被問到的幾點。一 c 語言 memcpy 的實現,如果兩塊記憶體重疊了怎樣解決。二 c 語言 虛函式和純虛函式的區別,虛函式編譯器怎樣實現,虛表指標放在類的 32 位和 64 位程式的區別。三 linux 如何得到乙個新的程序,程序間通訊的方式 ...
大資料工程師面試題
你曾經參與或主導過哪些大資料型別的專案?專案目標是什麼?你具體擔負的哪個角色?使用哪些演算法?使用哪些統計方法?如果解決使用者商品匹配的話,你會採用什麼型別的模型?二部圖模型有什麼缺陷?對應有什麼改進模型?標籤系統有什麼特徵?有什麼問題?使用者行為分析有什麼模型?說說你曾經專案中的模型迭代過程?成功...
大資料工程師面試經驗(一)
優點 極高的裝載速度 最高可以等於所有硬碟io 的總和,基本是極限了 適合儲存大量資料 實時載入資料僅限於增加 刪除和更新需要解壓縮block 然後計算然後重新壓縮儲存 高效的壓縮率,不僅節省儲存空間也節省計算記憶體和cpu。非常適合做聚合操作。缺點 不適合掃瞄小量資料 不適合隨機的更新 批量更新情...