四. kafka到sparkstreaming怎麼保證資料完整性,怎麼保證資料不重複消費?
五.kafka的消費者高階和低階api區別
六.kafka怎麼保證資料消費一次且僅消費一次
七.kafka保證資料一致性和可靠性
八.spark實時作業宕掉,kafka指定的topic資料堆積怎麼辦
九.kafka讀寫流程
十.kafka為什麼只讓leader進行讀寫
十一.為了避免磁碟被佔滿,kafka會週期性的刪除舊訊息,請問刪除策略有哪些?
十二.kafka資料高可用的原理
十三.kafka的偏移量offset存放在哪兒.為什麼?
十四.如何保證kafka訊息有序
十五.kafka分割槽數
十六.kafka分割槽分配策略
十七.kafka資料量計算
十八.kafka訊息資料積壓,kafka消費能力不足怎麼處理
十九.kafka高吞吐的實現
和rabbitmq進行對比:
保證資料不丟失(at-least)
direct方式:
1.順序讀寫
2.零拷貝
3.分割槽
4.批量傳送
5.資料壓縮
6.consumer 的負載均衡
kafka常見面試題
ar 所有的分割槽副本 isr 所有與leader保持同步的副本集合 osr 被leader剔除isr的集合 當副本在一定時間未與leader進行同步就會被提出isr。leo 每個副本中最大的 offset hw 消費者能見到的最大的 offset,isr中最小的leo kafka的分割槽每次寫入訊...
kafka常見面試題
1 為什麼要使用 kafka,為什麼要使用訊息佇列 緩衝和削峰 解耦和擴充套件性 冗餘 健壯性 非同步通訊 2 kafka的acks引數對訊息持久化的影響 往kafka寫資料的時候,就可以來設定這個acks引數。然後這個引數實際上有三種常見的值可以設定,分別是 0 1 和 all 等價於 1 api...
大資料常見面試題之spark core
二.driver的功能 三.hadoop和spark都是平行計算,他們有什麼相同點和不同點 四.rdd 五.簡述寬依賴和窄依賴概念,groupbykey,reducebykey,map,filter,union都是什麼依賴?六.spark如何防止記憶體溢位 七.stage task 和 job的區別...