流資料特點:實時獲取來自不同資料來源的海量資料,經過實時分析處理,獲得有價值的資訊
快速持續到達;
**多,格式複雜;
資料量大,但不關心儲存;
注重整體價值;
順序顛倒或不完整;
資料的價值隨著時間的流逝而降低;
流計算系統要求:
高效能海量式
實時性分布式
易用性可靠性
流計算框架:
商業級:ibm infosphere streams;ibm strambase(用於銀行);
開源流計算框架:twitter storm;yahoo! s4;
流資料處理過程:
資料實時採集;資料實時計算;資料實時查詢服務;
資料實時採集:需要保證實時性、低延時、穩定可靠;
目前有許多網際網路公司發布的開源分布式日誌採集系統均可滿足每秒數百mb的資料採集和傳輸需求,如:
facebook的scribe
linkedin的kafka
**的time tunnel
基於hadoop的chukwa和flume
基本架構有三個部分:
agent:主動採集資料,並把資料推送到collector部分
collector:接收多個agent的資料,並實現有序、可靠、高效能的**
store:儲存collector**過來的資料(對於流計算不儲存資料)
資料實時計算:對採集的資料進行實時的分析和計算,並反饋實時結果
實時查詢服務:經由流計算框架得出的結果可供使用者進行實時查詢、展示或儲存
傳統:需要使用者主動查詢;資料為歷史資料;
實時查詢:實時;最新資料;
IO流學習筆記
使用緩衝流時,不需要自定義位元組或字元陣列,緩衝流自帶有緩衝區。緩衝流是包裝流,關閉流時,只需要關閉外層的流,內部的流會自動關閉。通過轉換流可以將位元組流轉換為字元流 標準的輸出流,預設輸出到控制台,但是可以設定標準輸出流的輸出方向 呼叫setout方法 不需要手動呼叫close方法去關閉 資料流可...
IO流學習筆記
位元組流 字元流 輸入流 inputstream reader 輸出流 outputstream writer 檔案流 fileinputstream,filereader,fileoutputstream,filewriter 緩衝流 bufferedinputstream,bufferedrea...
網路流學習筆記
先宣告,來自網路,寫得也比較亂,如果有任何問題可以聯絡博主。首先,我們來理解下網路流。在乙個有向圖上選擇乙個源點,乙個匯點,每一條邊上都有乙個流量上限 以下稱為容量 即經過這條邊的流量不能超過這個上界,同時,除源點和匯點外,所有點的入流和出流都相等,而源點只有流出的流,匯點只有匯入的流。這樣的圖叫做...