1、mapreduce的流程
幾個shuffle,幾個partition,幾次落地磁碟,在combiner裡邊都做了什麼事情
在切分的時候,1029m會切分成幾個切片
2、怎麼能夠確保消費kafka中的資料不重複,也不丟失
不重複可以通過設定zookeeper儲存offset來設定
如果sparkstreaming消費kafka中的資料,消費了一部分之後發現資料處理的有問題,需要重新做處理,這時候怎麼消費,怎麼做。
3、spark基於yarn模式的理解,畫圖說明
4、hive底層是怎麼實現的
5、畫圖說明mapreduce計算wordcount,每一步的結果是什麼
6、mapreduce計算wordcount,需要實現那幾個超類,分別是什麼,知道幾個。
7、kafka中增加併發量的方式有那幾種方式
8、mapreduce中inputformat與 outputformat
9、mapreduce中1029m資料是則麼切分的
10、對hive的理解,什麼是元資料,元資料都人為哪幾種
百度面試及總結
第一道很簡單,問程式在記憶體有幾個資料區,堆和棧區有啥區別 第二道是兩個有序陣列 可能公升序或降序 要求合併到乙個大陣列中,使其仍然有序,講了大體思路,並用c簡單寫了實現 第三道是給出int型的x y兩個數,要求不借助第三個變數交換x和y的值,啊。從大一開始學c,碰到過用value傳參 引用傳參 指...
2019 04 13百度面試總結
二 資料庫 出個題會做題嗎 三 實習 首先簡歷要重新寫,讓人看明白意思 已經修改 1.強化學習q learning 演算法和sarsa演算法的推導 2.rnn lstm具體介紹一下。10.中文分詞的訓練集是什麼樣子的 11.訓練分類的特徵是什麼 12.nlp還有什麼了解的麼,就說了個word2vec...
百度面試問題總結
1,redis中list的資料結構?2,redis的主從複製原理?3,mybatis將資料庫中字段與dto中的變數對應的原理?4,spring aop的原理?模式?5,工廠模式的實現?6,反射?反射的應用?7,tcp ip協議time out命令的執行?關閉連線需要幾步?服務端怎麼知道傳送了fin請...