面試題(七) 大資料相關知識

2021-08-21 03:33:32 字數 1074 閱讀 2206

大資料相關知識

01. kafka 基本特性:

kafka 將訊息儲存在磁碟中,並且讀寫磁碟的方式是順序讀寫,避免了隨機讀寫磁碟(尋道時間過長)導致的效能瓶頸;磁碟的順序讀寫速度超過記憶體隨機讀寫。

kafka 入門與實踐

02. 核心概念

· · 

· 1. 

每個 topic 可以劃分為多個分割槽,每個訊息在分割槽中都會有乙個唯一編號 offset

kafka 通過 offset 保證訊息在分割槽中的順序

2. 同一 topic 的不同分割槽可以分配在不同的 broker 上

3. partition 以檔案的形式儲存在檔案系統中。

1. kafka 對訊息進行了冗餘備份,每個分割槽有多個副本,每個副本中包含的訊息是 「一樣」 的。

2. 3. 

broker:

1. 2. 

3. cluster&controller:

1. controller 負責管理分割槽的狀態,管理每個分割槽的副本狀態,監聽 zookeeper 中資料的變化等工作

2. 1. 

2. 3. 

4. isr 集合 :表示當前 「可用」 且訊息量與 leader 相差不多的副本集合。滿足條件如下:

1. 2. 

3. 4. 

hw&leo:

1. hw 標記了乙個特殊的 offset,當消費者處理訊息的時候,只能拉取到 hw 之前的訊息;

2. hw 也是由 leader 副本管理的;

3. leo(log end offset)是所有副本都會有的乙個 offset 標記。

4. isr、hw 和 leo 的工作配合:

1. producer 向此分割槽中推送訊息;

2. leader 副本將訊息追加到 log 中,並且遞增其 leo;

3. follower 副本從 leader 副本中拉取訊息進行同步;

4. follower 副本將訊息更新到本地 log 中,並且遞增其 leo;

5. 6. 

kafka 的容災機制:通過分割槽的副本 leader 副本和 follower 副本來提高容災能力。

大資料面試題 七 Flume面試題

無意中發現了乙個巨牛的人工智慧教程,忍不住分享一下給大家。教程不僅是零基礎,通俗易懂,而且非常風趣幽默,像看 一樣!覺得太牛了,所以分享給大家。點這裡可以跳轉到教程。大資料面試寶典目錄,1.flume 使用場景 2.flume 丟包問題 3.flume 與kafka 的選取 1.flume 使用場景...

面試題相關知識

1.畫素是什麼?畫素是螢幕的最小單位。1080p的螢幕畫素個數是1920 1800。1200w畫素的螢幕,解析度是3000 4000。dpi 一英吋的畫素數量。dpi越高,越清晰。在mac windows上可以設定螢幕顯示的解析度,mac預設為裝置解析度的一半,它的dpr 2,即長和寬用2個畫素表示...

大資料面試題 (五)Spark 相關面試題總結

答 rdd resilient distributed dataset 叫做分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變,可分割槽,裡面的元素可以平行計算的集合 dataset 就是乙個集合,用於存放資料的 destributed 分布式,可以並行在集群計算 resilient 表...