百度面試總結

1、mapreduce的流程

幾個shuffle，幾個partition，幾次落地磁碟，在combiner裡邊都做了什麼事情

在切分的時候，1029m會切分成幾個切片

2、怎麼能夠確保消費kafka中的資料不重複，也不丟失

不重複可以通過設定zookeeper儲存offset來設定

如果sparkstreaming消費kafka中的資料，消費了一部分之後發現資料處理的有問題，需要重新做處理，這時候怎麼消費，怎麼做。

3、spark基於yarn模式的理解，畫圖說明

4、hive底層是怎麼實現的

5、畫圖說明mapreduce計算wordcount，每一步的結果是什麼

6、mapreduce計算wordcount，需要實現那幾個超類，分別是什麼，知道幾個。

7、kafka中增加併發量的方式有那幾種方式

8、mapreduce中inputformat與 outputformat

9、mapreduce中1029m資料是則麼切分的

10、對hive的理解，什麼是元資料，元資料都人為哪幾種

百度面試及總結

第一道很簡單，問程式在記憶體有幾個資料區，堆和棧區有啥區別第二道是兩個有序陣列可能公升序或降序要求合併到乙個大陣列中，使其仍然有序，講了大體思路，並用c簡單寫了實現第三道是給出int型的x y兩個數，要求不借助第三個變數交換x和y的值，啊。從大一開始學c，碰到過用value傳參引用傳參指...

2019 04 13百度面試總結

二資料庫出個題會做題嗎三實習首先簡歷要重新寫，讓人看明白意思已經修改 1.強化學習q learning 演算法和sarsa演算法的推導 2.rnn lstm具體介紹一下。10.中文分詞的訓練集是什麼樣子的 11.訓練分類的特徵是什麼 12.nlp還有什麼了解的麼，就說了個word2vec...

百度面試問題總結

1，redis中list的資料結構？2，redis的主從複製原理？3，mybatis將資料庫中字段與dto中的變數對應的原理？4，spring aop的原理？模式？5，工廠模式的實現？6，反射？反射的應用？7，tcp ip協議time out命令的執行？關閉連線需要幾步？服務端怎麼知道傳送了fin請...

百度面試總結

百度面試及總結

2019 04 13百度面試總結

百度面試問題總結

相關推薦