yarn排程器:
1.fifo排程器:先進先出,並行度為1
2.容量排程器:先進先出:並行度為佇列的個數
3.公平排程器:多佇列;每個佇列內部按照缺額大小分配資源啟動任務,同一時間佇列中有多個任務執行。
佇列的並行度大於等於佇列的個數。
hadoop引數調優
1 在hdfs中配置奪目錄
2.namenode有乙個工作執行緒池用來處理併發的心跳和元資料操作
dfs.namenode.handler.count=20 * log2(cluster size)
3.日誌檔案儲存路徑和檔案訊處路徑要分開
4.伺服器節點上yarn可使用的物理記憶體總量,預設是8192(mb)【8g】
5.單個任務最多可以申請的節點物理記憶體量為8g yarn.scheduler.maximum-allocation-mb
另外:搭建完集群後需要對hdfs的讀寫效能和mr的計算能力進行測試
假如hadoop宕機:
1.如果是mr造成的宕機:此時需要yarn控制mr的任務數,(調大引數,單個任務可以申請的最大的記憶體量為8g)
2.如果是寫入檔案過量造成的namenode宕機;可以調大kafka的儲存大小(kafka可以作為緩衝區減小hadoop的壓力達到削鋒的目的)
zookeeper:
選舉機制:半數機制(所以個數為奇數)
常用命令:ls,get,create、
flume:
flume組成:put事務,take事務、
source-----channel----sink
taildir source:支援斷點續存需要配置多目錄
filechannel:資料儲存在磁碟,宕機可以儲存資料;效率慢(適用於對資料可靠性的金融行業)
mermory channel:資料儲存在記憶體中,宕機資料丟失,傳輸熟讀快;(普通的日誌資料);
kafka channel :減少了flume的sink階段,提高了傳輸效率。(下游必須是kafka);
source到channel是put事務
channel到sink是take事務
flume:***
etl***和區分型別的***
a.實現interceptor
b 重寫四個方法:
初始化:initialize()
單個event()
處理多個event
close()
c.靜態內部類
flume選擇器:
replicating channel selector(default):
會將source過來的events發往所有的channel
multiplexing channel selector:
可以選擇發往那些channel
flume:監控器 ganglia
flume 採集資料會丟失嗎? 不會,channel儲存可以儲存在file中,資料傳輸自身有事務
flume 記憶體:
開發中在flume-env.sh 中設定jvm heap為4g 或者更高,最好部署在單獨的伺服器上
-xmx和xms設定最好一致,減少記憶體抖動帶來的效能影響
flume cnannel優化:
1.通過配置datadirs指向多個路徑,每個路徑對用不同的磁碟,增大flume的吞吐量
2.checkpointdir和backupcheckpointdir盡量設定在不同硬碟對應目錄中
保證checkpoint壞掉後,可以通過chackupckeckpointdir恢復資料
hdfs–sink小檔案:
小檔案過多,會占用伺服器大量的記憶體,影響namenode效能和使用壽命
計算層面:每乙個小檔案都需要乙個mr進行計算,非常影響計算效能
小檔案優化:
hdfs.rollinterval
hdfs.rollsize
hdfs.rollcount
效果是:檔案在達到128m時候會滾動生成正式檔案
kafka總價::
kafka壓測:一般是網路io存在瓶頸
kafka機器數:2*(峰值速度副本數/100)+1
日誌儲存天數:7
儲存的資料量7=硬碟的大小
監控:kafka manager或者kafka monitor
分割槽數:
一般來說分布不要超過集群的個數(分割槽數越多占用的記憶體越大)
一般設定3-10個
副本數:一般遵循三副本原則
kafka會不會丟資料:
ack=0:非同步傳送
ack=1:leader收到接收請求才會增加offset,然後繼續生產
ack=-1:leader收到所有的請求才會增加offeset,然後繼續生產
isr:副本同步佇列
kafka的分割槽策略:
range(default):對同乙個topic是按照序號進行排序
roundrobin:
資料量計算:1000條/秒
kafka掛掉:
flume裡有記錄
日至有記錄
短期沒事
kafka訊息資料有積壓,消費能力不足?
1.增加topic的分割槽數
2.提高下游拉取資料的數量
Android面試要點(1)
1.簡單描述android中有哪幾種布局?你在專案中最經常使用哪幾種?2.請用xml布局的方式簡單寫一下下面的ui。省略,可根據自身的專案要求提供。3.簡單描述android中常用的幾種資料儲存方式。你在最近的專案中用到哪幾種?4.view,su ceview,glsu ceview有什麼區別?你認...
大資料面試
資料分析師常見的10道面試題解答 資料分析師 或者如下闡述 演算法思想 分而治之 hash ip位址最多有2 32 4g種取值情況,所以不能完全載入到記憶體中處理 可以考慮採用 分而治之 的思想,按照ip位址的hash ip 24值,把海量ip日誌分別儲存到1024個小檔案中。這樣,每個小檔案最多包...
大資料面試總結
1 給出乙個超過100g的log file,log中存著ip位址,設計演算法找到出現次數最多的ip位址?採用雜湊切割將ip相同的檔案都對映到同乙個檔案中,在一次統計每個檔案ip的個數,求出最多的,如果乙個ip出現的次數特別多,切割之後還是無法載入到記憶體中,我們可在對這個檔案進行切割 普通切割 分成...