kafka 是乙個訊息系統,原本開發自 linkedin,用作 linkedin 的活動流(activity stream)和運營資料處理管道(pipeline)的基礎。現在它已被多家公司作為多種型別的資料管道和訊息系統使用。活動流資料是幾乎所有站點在對其**使用情況做報表時都要用到的資料中最常規的部分。活動資料報括頁面訪問量(page view)、被檢視內容方面的資訊以及搜尋情況等內容。這種資料通常的處理方式是先把各種活動以日誌的形式寫入某種檔案,然後周期性地對這些檔案進行統計分析。運營資料指的是伺服器的效能資料(cpu、io 使用率、請求時間、服務日誌等等資料),總的來說,運營資料的統計方法種類繁多。
通過o(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以tb的訊息儲存也能夠保持長時間的穩定性能。
高吞吐量:即使是非常普通的硬體kafka也可以支援每秒數十萬的訊息。
支援通過kafka伺服器和消費機集群來分割槽訊息。
支援hadoop並行資料載入。
**broker:**kafka 集群包含乙個或多個伺服器,這種伺服器被稱為 broker。
topic:每條發布到 kafka 集群的訊息都有乙個類別,這個類別被稱為 topic。(物理上不同 topic 的訊息分開儲存,邏輯上乙個 topic 的訊息雖然儲存於乙個或多個 broker 上,但使用者只需指定訊息的 topic 即可生產或消費資料而不必關心資料存於何處)。
**partition:**partition 是物理上的概念,每個 topic 包含乙個或多個 partition。為了實現擴充套件性,乙個非常大的topic可以分布到多個b
Kafka學習筆記(六) Kafka資料複製原理
高水位的作用主要是 高水位和 leo 是副本物件的兩個重要屬性。kafka 所有副本都有對應的高水位和 leo 值,而不僅僅是 leader 副本。只不過 leader 副本比較特殊,kafka 使用 leader 副本的高水位來定義所在分割槽的高水位。換句話說,分割槽的高水位就是其 leader ...
Kafka學習筆記 Kafka環境搭建
1.將kafka的tar包上傳到測試環境,解壓到 opt software,配置環境變數 kafka home opt software kafka 2.11 1.1.0 path kafka home bin scala home bin path export kafka home export...
學習筆記 Kafka
kafka kafka把資料往磁碟上寫,但是在磁碟上存它的讀寫速度比記憶體快,這個依賴於預讀和後寫功能,但是這個預讀和後寫必須是按照順序的方式,若沒有順序的方式優化的話,不存在什麼預讀和後寫。特點 訊息持久化 能落到磁碟 通過o 1 的磁碟資料結構提供資料的持久化 高吞吐量 分布式 擴充套件能力強 ...