1.kafka 壓測
用 kafka 官方自帶的指令碼,對 kafka 進行壓測。kafka 壓測時,可以檢視到哪個地方出
現了瓶頸(cpu,記憶體,網路 io)。一般都是網路 io 達到瓶頸。
kafka-consumer-perf-test.sh
kafka-producer-perf-test.sh
(1)測試生產者
bin/kafka-producer-perf-test.sh--topic test
--record-size 100
--num-records 100000
--throughput -1
--producer-props
bootstrap.servers=ubuntu-00:9092,ubuntu-00:9092
說明:record-size 是一條資訊有多大,單位是位元組
num-records 是總共傳送多少條資訊。
throughput 是每秒多少條資訊,設成-1,表示不限流,可測出生產者最大吞吐量。
(2)測試消費者
consumer 的測試,如果這四個指標(io,cpu,記憶體,網路)都不能改變,考慮增加分割槽數來提公升效能
bin/kafka-consumer-perf-test.sh--zookeeper ubuntu-00:2181
--topic test
--fetch-size 10000
--messages 10000000
--threads 1
引數說明:
--zookeeper 指定 zookeeper 的鏈結資訊
--topic 指定 topic 的名稱
--fetch-size 指定每次 fetch 的資料的大小
--messages 總共要消費的訊息個數
2.kafka 機器數量計算
kafka 機器數量(經驗公式)=2*(峰值生產速度*副本數/100)+1
先拿到峰值生產速度,再根據設定的副本數,就能預估出需要部署 kafka 的數量。
比如我們的峰值生產速度是 50m/s。副本數為 2。
kafka 機器數量=2*(50*2/100)+ 1=3 臺
應用kafka的經驗
kafka 部署注意事項?啟動使用者,非root 安裝目錄許可權 除了資料目錄和日誌目錄是讀寫外,bin目錄是可執行,其他目錄應該唯讀 預設埠修改 只容許內網訪問 整合監控和管理軟體 開啟認證 kafka 如何保證訊息不丟失?訊息可靠傳送 producer要注意配置ack的級別 acks 0 生產者...
kafka專案例項
一.kafka概述 kafka是linkedin於2010年12月份建立的開源訊息系統,它主要用於處理活躍的流式資料。活躍的流式資料在web 應用中非常常見,這些活動資料報括頁面訪問量 page view 被檢視內容方面的資訊以及搜尋情況等內容。這些資料通常以日誌的形式記錄下來,然後每隔一段時間進行...
專案經驗小結
專案內容 專案目的 傳統的日誌,記錄的是系統訊息流,控制流或資料流方面的資訊,尤其關注出錯狀態。從而為我們分析問題提供現場,得以知道問題發生的前因後果。分析日誌之後,可以知道整個故事的情節 時間 地點 事件等等。但我們不太容易從海量的日誌中提取重要的系統效能指標或引數,以實現垂直衡量系統效能和評估系...