原生流處理:所以的輸入記錄一旦到達,會乙個接乙個進行處理。
乙個訊息傳遞過來,立刻處理。
storm:是乙個免費並開源的分布式實時計算系統。利用storm可以很容易做到可靠地處理無限的資料流,像hadoop批量處理大資料一樣,storm可以實時處理資料。storm,可以使用任何程式語言。
微批處理:把輸入的資料按照某種預先定義的時間間隔(典型到達是幾秒鐘)分成短小的批資料,流經流處理系統。
spark streaming是核心spark api的擴充套件,可實現實時資料流的可擴充套件,高吞吐量,容錯流處理。資料可以從許多**(如kafka,flume,kinesis或tcp套接字)中提取,並且可以使用以高階函式表示的複雜演算法進行處理map,例如reduce,join和window。最後,處理後的資料可以推送到檔案系統,資料庫和實時儀表板。實際上,您可以在資料流上應用spark的 機器學習和 圖形處理演算法。
分布式資料倉儲 mpp
mpp代表大規模並行處理,這是網格計算中所有單獨節點參與協調計算的方法。 mpp dbms是建立在這種方法之上的資料庫管理系統。在這些系統中,您正在凝視的每個查詢都會被分解為由mpp網格的節點並行執行的一組協調程序,它們的執行時間比傳統的smp rdbms系統快得多。
sql on hadoop --> hive批處理方式:
傳統etl—》mpp技術
mrmapreduce 的過程
input 投入
map 對映–》提取key,value
shuffle 清洗—》核心
reduce 化解
output 產出
異常類及處理方式
說句實話我沒怎麼聽懂,因為我太菜了。所以我只編了前乙個異常類,不太清楚兩者之間有什麼區別。一下附上 package com.huang public class fileexception extends exception catch exception e finally 以下為執行截圖 下乙個...
SIGCLD處理方式
apue上sigcld語義寫的有點不清楚,到底我們的系統是如何來處理sigcld訊號呢?1.sig dfl 預設的處理方式是不理會這個訊號,但是也不會丟棄子進行狀態,所以如果不用wait,waitpid 對其子進行進行狀態資訊 會產生殭屍程序。2.sig ign 忽略的處理方式,這個方式和預設的忽略...
遇事處理方式
事,慢慢地說 大事,清楚地說 小事,幽默地說 沒把握的事,謹慎地說 沒發生的事,不要胡說 做不到的事,別亂說 傷害人的事,不能說 討厭的事,對事不對人地說 開心的事,看場合說 傷心的事,不要見人就說 別人的事,小心地說 自己的事,聽聽自己的心怎麼說 現在的事,做了再說 未來的事,未來再說 知人不必言...