11 27號面試總結

2021-09-02 01:43:00 字數 868 閱讀 2264

1、在es資料庫中做查詢,如果欄位是中文的,怎麼分詞,怎麼查詢,以及怎麼匹配?

2、我們一般做資料處理,資料**於kafka,sparkstreaming去消費kafka中的資料,那如果消費的是檔案,或者資料庫中的資料,這種情況怎麼消費,怎麼處理?能否舉個例子,資料量多大,花了多長時間?

3、spark優化只有sparkstreaming有優化,sparksql沒有優化。

4、面試被問到做資料分析的時候,為什麼不同hive做分析?

5、hive,傳統資料庫,hbase,redis這幾個的區別是什麼?

6、講用mr做單詞統計,然後取topn,底層怎麼一步步實現的?

給的情景模式是公司伺服器有10個節點,一共可同時容納的資料量是30g,給你400g資料,讓你做單詞統計,然後取topn.每一步是怎麼做的?

7、spark的四種模式:yarn,local,standalone和metosos四者的區別是什麼?

8、畫圖說明spark on yarn模式資源排程和任務排程的原理。

9、將sparkmllib中最熟悉的演算法,就講幾個。

10、redis有乙個血奔問題,你是怎麼解決的?

11、現在主流的有apache,cdh,還有哪些,知不知道三駕馬車?

12、處理資料傾斜,怎麼解決?spark中給字段新增字首。

這個是我今天面試被問到的問題。

三駕馬車是 clouderal manager,cloudera cdh ,apache

三駕馬車之永垂不朽的gfs

但凡是要開始講大資料的,都繞不開最初的google三駕馬車:google file system(gfs), mapreduce,bigtable。如果我們拉長時間軸到20年為乙個週期來看呢,這三駕馬車到今天的影響力其實已然不同。

22號 25號總結

結果筆試的就直接被秒殺了。23號下午是可以筆試銳捷的,結果直接放棄了。25號上午華為的面試,由於跟 一局的宣講衝突了。本想下午去面華為,後來因為其他事情耽擱了。25號晚上筆試優酷土豆。22 25號總結 2.23號下午應該筆試銳捷的,有把握進一面 也應該去面華為。至少可以積累面試經驗!3.對於華為的機...

17號 18號總結

這兩天學習了毛毛蟲演算法 取尺,就如兩個指標乙個指向開頭,乙個指向後面的某個數,這兩個指標之間的長度又形象的比喻成毛毛蟲的身體長度,因為每當頭開始移動,尾巴也會隨著往後移動。就如做的那道題,樣例輸入乙個長度位3的數字,即代表毛毛蟲的長度,每次頭網前移動,尾巴也會隨著網前移動。while w n el...

19號 20號總結

這兩天學習了逆序數,其實也就主要學習了使用歸併解決逆序數的問題,方法呢也就是在歸併的基礎上加上一步,使得其達到計數的目的。while i x2 j x3 當使用歸併把其分成最小的分序列後,在進行排序這一步時,當前面的與後面的比較時,如果滿足要求就加 x2 j 這可能就是其在歸併排序的基礎上所加的東西...