大資料相關知識
01. kafka 基本特性:
kafka 將訊息儲存在磁碟中,並且讀寫磁碟的方式是順序讀寫,避免了隨機讀寫磁碟(尋道時間過長)導致的效能瓶頸;磁碟的順序讀寫速度超過記憶體隨機讀寫。
kafka 入門與實踐
02. 核心概念
· ·
· 1.
每個 topic 可以劃分為多個分割槽,每個訊息在分割槽中都會有乙個唯一編號 offset
kafka 通過 offset 保證訊息在分割槽中的順序
2. 同一 topic 的不同分割槽可以分配在不同的 broker 上
3. partition 以檔案的形式儲存在檔案系統中。
1. kafka 對訊息進行了冗餘備份,每個分割槽有多個副本,每個副本中包含的訊息是 「一樣」 的。
2. 3.
broker:
1. 2.
3. cluster&controller:
1. controller 負責管理分割槽的狀態,管理每個分割槽的副本狀態,監聽 zookeeper 中資料的變化等工作
2. 1.
2. 3.
4. isr 集合 :表示當前 「可用」 且訊息量與 leader 相差不多的副本集合。滿足條件如下:
1. 2.
3. 4.
hw&leo:
1. hw 標記了乙個特殊的 offset,當消費者處理訊息的時候,只能拉取到 hw 之前的訊息;
2. hw 也是由 leader 副本管理的;
3. leo(log end offset)是所有副本都會有的乙個 offset 標記。
4. isr、hw 和 leo 的工作配合:
1. producer 向此分割槽中推送訊息;
2. leader 副本將訊息追加到 log 中,並且遞增其 leo;
3. follower 副本從 leader 副本中拉取訊息進行同步;
4. follower 副本將訊息更新到本地 log 中,並且遞增其 leo;
5. 6.
kafka 的容災機制:通過分割槽的副本 leader 副本和 follower 副本來提高容災能力。
大資料面試題 七 Flume面試題
無意中發現了乙個巨牛的人工智慧教程,忍不住分享一下給大家。教程不僅是零基礎,通俗易懂,而且非常風趣幽默,像看 一樣!覺得太牛了,所以分享給大家。點這裡可以跳轉到教程。大資料面試寶典目錄,1.flume 使用場景 2.flume 丟包問題 3.flume 與kafka 的選取 1.flume 使用場景...
面試題相關知識
1.畫素是什麼?畫素是螢幕的最小單位。1080p的螢幕畫素個數是1920 1800。1200w畫素的螢幕,解析度是3000 4000。dpi 一英吋的畫素數量。dpi越高,越清晰。在mac windows上可以設定螢幕顯示的解析度,mac預設為裝置解析度的一半,它的dpr 2,即長和寬用2個畫素表示...
大資料面試題 (五)Spark 相關面試題總結
答 rdd resilient distributed dataset 叫做分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變,可分割槽,裡面的元素可以平行計算的集合 dataset 就是乙個集合,用於存放資料的 destributed 分布式,可以並行在集群計算 resilient 表...