1. 檢視所有topic
kafka-topics.sh --zookeeper hadoop3 --list
2. 建立tooic及topic的partitioner
./kafka-topics.sh --zookeeper hadoop3:2181,hadoop4:2181,hadoop5:2181,hadoop6:2181,hadoop7:2181,hadoop8:2181,hadoop9:2181 --create --topic check-data --partitions 21 --replication-factor 2
說明:在集群模式中,partitioner可以根據集群節點的磁碟空間大小和kafka server這個配置log-dir=/data/kafka-log,/data01/kafka-log,/data02/kafka-log
兩個結合來控制partitions個數,這樣做可以提高效能和避免乙個partitions被撐爆
3. 檢視kafka中的偏移量
kafka-run-class.sh kafka.tools.getoffsetshell --broker-list ynjz003:9092,ynjz004:9092,ynjz005:9092,ynjz006:9092,ynjz007:9092,ynjz008:9092,ynjz009:9092 --topic ynjz-data --time -1
說明:該條命令可以檢視到kafka的每個partitioner的位置的偏移量,通過這個可以看出kafka的資料攝入能力和大概的資料容量
kafka-configs.sh --zookeeper ynjz003:2181,ynjz004:2181,ynjz005:2181,ynjz006:2181,ynjz007:2181,ynjz008:2181,ynjz009:2181 --entity-type topics --entity-name statistics-data --alter --add-config retention.ms=259200
說明:如果不設定的話,卡夫卡預設儲存時間是7天,但在資料量過大,實時處理過程中為了減少資料的積壓沒必要儲存7天,可以根據以上命令設定某個topic資料儲存的時間,最後乙個引數的單位是秒
5. 檢視某個topic在某個消費者的狀態
kafka-consumer-offset-checker --zookeeper gawh220:2181,gawh221:2181,gawh222:2181/kafka --topic ori_31_jn_jt_hcpgpxx_zdr --group to_hive_original_new_513
說明:ori_31_jn_jt_hcpgpxx_zdr在消費者to_hive_original_new_513消費狀態
這裡代表還有1000沒有被消費
6. 刪除topic及topic的資料
這塊較為複雜,可以參考這篇部落格
Kafka 幾個重要的配置總結
注意 配置基於kafka 0.8.2.1 broker配置 非負整數,用於唯一標識broker broker.id 0 kafka持久化資料儲存的路徑,可以指定多個,以逗號分隔 log.dirs tmp kafka logs broker接收連線請求的埠 port 9092 指定zk連線字串,hos...
Hive Hive架構及常規操作
建立內部表 建立內部表 create table article sentence string row format delimited fields terminated by n 從本地匯入資料 相當於將path資料hadoop fs put hive warehouse badou.db l...
幾個重要的概念
1 服務 服務是乙個個的介面,介面約定了服務,從而使隨意替換服務的實現對使用介面服務的 沒有任何的影響。像我們上面例子中的ilog,ilogformatter都是乙個個服務,我們在這個例子中支實現了乙個文字檔案的日誌記錄,如果你要是實現資料庫記錄的日誌記錄,都必須要遵守ilog這個介面。2 元件 簡...