是乙個分布式的,容錯的,高效的訊息通到。主要用於做實時的資料流、構建實時應用等。
設計目標:為處理實時資料提供乙個統
一、高吞吐量、低延遲的平台。
kafka是乙個分布式訊息佇列:生產者、消費者的功能。
啟動:先保證zk集群啟動
再啟動kafka
[root@hadoop01 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &
[root@hadoop02 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &
[root@hadoop03 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &
關閉:./bin/kafka-server-stop.sh
組成:broker(**): kafka 節點,乙個 kafka 節點就是乙個 broker,多個 broker 可以組成乙個 kafka 集群,每乙個broker可以有多個topic。(乙個虛擬機器對應乙個broker)
producer(生產者): 生產 message (資料)傳送到 topic。
consumer(消費者): 訂閱 topic 消費 message,consumer 作為乙個執行緒來消費。
consumer group(消費組): 乙個 consumer group 包含多個 consumer,這個是預先在配置檔案中配置好的。
topic(主題): 一種類別,每一條傳送到kafka集群的訊息都可以有乙個類別,這個類別叫做topic,不同的訊息會進行分開儲存,如果topic很大,可以分布到多個broker上,例如 page view 日誌、click 日誌
等都可以以 topic的形式存在,kafka 集群能夠同時負責多個 topic 的分發。也可以這樣理解:topic被認為是乙個佇列,每一條訊息都必須指定它的topic,可以說我們需要明確把訊息放入哪乙個佇列。
partition(分割槽): topic 物理上的分組,乙個 topic 可以分為多個 partition,每個 partition 是乙個有序的佇列。
replicas(副本): 每乙個分割槽,根據副本因子n,會有n個副本。比如在broker1上有乙個topic,分割槽為topic-1, 副本因子為2,那麼在兩個broker的資料目錄裡,就都有乙個topic-1,其中乙個是leader,乙個replicas。
segment: partition 物理上由多個 segment 組成,每個 segment 存著 message 資訊。
producer api(生產者api)允許乙個應用程式去推送流式記錄到乙個或者多個kafka的topic中。
consumer api(消費者api)允許乙個應用程式去訂閱消費乙個或者多個主題,並處理生產給他們的流式記錄。
streams api(流式api)允許應用程式作為乙個流處理器,消費乙個或多個主題的輸入流,並生成乙個或多個主題到輸出流,從而有效地將輸入流轉換為輸出流。
connector api(聯結器api)允許構建和執行將kafka主題連線到已經存在應用程式或資料系統的可重用生產者或消費者。例如,到關聯式資料庫的聯結器可能捕獲對錶的每個更改。
dmp中技術點的定義
etl,資料倉儲技術,是英文extract transform load的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。etl是將業務系統的資料經過抽取 清洗轉換之後載入到資料倉儲的...
最全的反爬蟲技術
反爬蟲 的技術大概分為四個種類 注 文末有福利!傳統反爬蟲手段 1 後台對訪問進行統計,如果單個ip訪問超過閾值,予以封鎖。這個雖然效果還不錯,但是其實有兩個缺陷,乙個是非常容易誤傷普通使用者,另乙個就是,ip其實不值錢,幾十塊錢甚至有可能買到幾十萬個ip。所以總體來說是比較虧的。不過針對三月份呢爬...
反爬蟲技術和爬蟲特點
防爬規則 1.按照ip段聚合,5分鐘內的ip段 前兩位訪問量 2.按照ip段聚合,某個ip,5分鐘訪問總量 3.按照ip段聚合,某個ip,5分鐘內的關鍵頁面訪問總量 4.按照ip段聚合,某個ip,5分鐘內的ua種類統計 5.按照ip位址聚合,某個ip,5分鐘內頁面查詢不同行程的次數。6.按照ip位址...