大資料面試要點1

2021-10-25 00:05:40 字數 2582 閱讀 9236

yarn排程器:

1.fifo排程器:先進先出,並行度為1

2.容量排程器:先進先出:並行度為佇列的個數

3.公平排程器:多佇列;每個佇列內部按照缺額大小分配資源啟動任務,同一時間佇列中有多個任務執行。

佇列的並行度大於等於佇列的個數。

hadoop引數調優

1 在hdfs中配置奪目錄

2.namenode有乙個工作執行緒池用來處理併發的心跳和元資料操作

dfs.namenode.handler.count=20 * log2(cluster size)

3.日誌檔案儲存路徑和檔案訊處路徑要分開

4.伺服器節點上yarn可使用的物理記憶體總量,預設是8192(mb)【8g】

5.單個任務最多可以申請的節點物理記憶體量為8g yarn.scheduler.maximum-allocation-mb

另外:搭建完集群後需要對hdfs的讀寫效能和mr的計算能力進行測試

假如hadoop宕機:

1.如果是mr造成的宕機:此時需要yarn控制mr的任務數,(調大引數,單個任務可以申請的最大的記憶體量為8g)

2.如果是寫入檔案過量造成的namenode宕機;可以調大kafka的儲存大小(kafka可以作為緩衝區減小hadoop的壓力達到削鋒的目的)

zookeeper:

選舉機制:半數機制(所以個數為奇數)

常用命令:ls,get,create、

flume:

flume組成:put事務,take事務、

source-----channel----sink

taildir source:支援斷點續存需要配置多目錄

filechannel:資料儲存在磁碟,宕機可以儲存資料;效率慢(適用於對資料可靠性的金融行業)

mermory channel:資料儲存在記憶體中,宕機資料丟失,傳輸熟讀快;(普通的日誌資料);

kafka channel :減少了flume的sink階段,提高了傳輸效率。(下游必須是kafka);

source到channel是put事務

channel到sink是take事務

flume:***

etl***和區分型別的***

a.實現interceptor

b 重寫四個方法:

初始化:initialize()

單個event()

處理多個event

close()

c.靜態內部類

flume選擇器:

replicating channel selector(default):

會將source過來的events發往所有的channel

multiplexing channel selector:

可以選擇發往那些channel

flume:監控器 ganglia

flume 採集資料會丟失嗎? 不會,channel儲存可以儲存在file中,資料傳輸自身有事務

flume 記憶體:

開發中在flume-env.sh 中設定jvm heap為4g 或者更高,最好部署在單獨的伺服器上

-xmx和xms設定最好一致,減少記憶體抖動帶來的效能影響

flume cnannel優化:

1.通過配置datadirs指向多個路徑,每個路徑對用不同的磁碟,增大flume的吞吐量

2.checkpointdir和backupcheckpointdir盡量設定在不同硬碟對應目錄中

保證checkpoint壞掉後,可以通過chackupckeckpointdir恢復資料

hdfs–sink小檔案:

小檔案過多,會占用伺服器大量的記憶體,影響namenode效能和使用壽命

計算層面:每乙個小檔案都需要乙個mr進行計算,非常影響計算效能

小檔案優化:

hdfs.rollinterval

hdfs.rollsize

hdfs.rollcount

效果是:檔案在達到128m時候會滾動生成正式檔案

kafka總價::

kafka壓測:一般是網路io存在瓶頸

kafka機器數:2*(峰值速度副本數/100)+1

日誌儲存天數:7

儲存的資料量7=硬碟的大小

監控:kafka manager或者kafka monitor

分割槽數:

一般來說分布不要超過集群的個數(分割槽數越多占用的記憶體越大)

一般設定3-10個

副本數:一般遵循三副本原則

kafka會不會丟資料:

ack=0:非同步傳送

ack=1:leader收到接收請求才會增加offset,然後繼續生產

ack=-1:leader收到所有的請求才會增加offeset,然後繼續生產

isr:副本同步佇列

kafka的分割槽策略:

range(default):對同乙個topic是按照序號進行排序

roundrobin:

資料量計算:1000條/秒

kafka掛掉:

flume裡有記錄

日至有記錄

短期沒事

kafka訊息資料有積壓,消費能力不足?

1.增加topic的分割槽數

2.提高下游拉取資料的數量

Android面試要點(1)

1.簡單描述android中有哪幾種布局?你在專案中最經常使用哪幾種?2.請用xml布局的方式簡單寫一下下面的ui。省略,可根據自身的專案要求提供。3.簡單描述android中常用的幾種資料儲存方式。你在最近的專案中用到哪幾種?4.view,su ceview,glsu ceview有什麼區別?你認...

大資料面試

資料分析師常見的10道面試題解答 資料分析師 或者如下闡述 演算法思想 分而治之 hash ip位址最多有2 32 4g種取值情況,所以不能完全載入到記憶體中處理 可以考慮採用 分而治之 的思想,按照ip位址的hash ip 24值,把海量ip日誌分別儲存到1024個小檔案中。這樣,每個小檔案最多包...

大資料面試總結

1 給出乙個超過100g的log file,log中存著ip位址,設計演算法找到出現次數最多的ip位址?採用雜湊切割將ip相同的檔案都對映到同乙個檔案中,在一次統計每個檔案ip的個數,求出最多的,如果乙個ip出現的次數特別多,切割之後還是無法載入到記憶體中,我們可在對這個檔案進行切割 普通切割 分成...