kafka是分布式發布-訂閱訊息系統。它最初由linkedin公司開發,之後成為apache專案的一部分。kafka是乙個分布式的,可劃分的,冗餘備份的永續性的日誌服務。它主要用於處理活躍的流式資料。
kafka主要特點:
問題kafka的吞吐量測試(測試生產速度和消費速度)
kafka記憶體為6g(不能超過6g)
kafka數量確定:2 * 峰值生產速度(m/s)* 副本數 / 100 + 1 = ?
kafka中的資料量計算
每天資料總量100g(1億條) 10000萬/24/60/60 = 1150條/s
平均每秒鐘:1150條
低谷每秒:400條
高峰每秒鐘:1150 * 10 = 11000 條
每條日誌大小: 1k左右
每秒多少資料量:20mb
kafka訊息資料積壓,kafka消費能力不足怎麼處理?
(1)如果是kafka消費能力不足,則可以考慮增加topic的分割槽數,並且同時提公升消費組的消費者數量,消費者數=分割槽數。(兩者缺一不可)
(2)如果是下游的資料處理不及時:提高每批次拉取的數量。批次拉取資料過少(拉取資料/處理時間《生產速度),使處理的資料小於生產的資料,也會造成資料積壓。
Kafka入門和高階
kafka 是乙個分布式的基於 發布 訂閱模式 的流式平台,主要應用於大資料實時處理領域。它有三個關鍵能力 1.訂閱發布記錄流,它類似於企業中的訊息佇列 或 企業訊息傳遞系統 2.以容錯的方式儲存記錄流 3.實時記錄流 kafka 的應用 kafka 可以建立流資料管道,可靠性的在系統或應用之間獲取...
《Linux指令從入門到精通》 導讀
前言 linux屬於開源的自由軟體,程式設計師和愛好者可以根據自己的喜好參與到其設計和開發工作中並且任意傳播,因此它受到廣大計算機愛好者的喜愛。除此之外,由於unix作業系統是收費的,任何使用unix作業系統或想要學習unix作業系統的人都需要支付高額的費用,而linux是開源的類unix作業系統,...
《Linux C程式設計從入門到精通》 導讀
前言 linux作業系統是一種類unix作業系統,其 是開源的,任何開發者 愛好者都可以免費使用,因此一經推出便風靡世界。linux自從面世以來,經不同開發者和程式設計師的開發,現在存在著許多不同的版本,這些版本的根本都在於使用了linux核心。當前,linux作業系統安裝在各種各樣的計算機裝置中,...