第四課記錄 離線計算與實時計算

2021-08-05 22:07:56 字數 877 閱讀 4353

1、舉例:

(1)電商:商品推薦  ---->  問題1:大量的訂單如何儲存?       問題2:大量的訂單如何計算?

(2)天氣預報        ---->  問題1:大量的天氣資料如何儲存?   問題2:大量的天氣資料如何計算?

2、大資料解決核心問題:

(1)資料的儲存   ---> 解決:分布式的檔案系統(儲存資料)。 

hdfs(hadoop distributed file system),**於gfs(google file system)

倒排索引(找到資料)

(2)資料的計算   ---> 解決:分布式的計算模型(mapreduce,**pagerank問題),來自於google

3、ibm提出大資料定義:5個v

1、hadoop其實就是資料倉儲的一種實現方式

2、資料倉儲:就是乙個資料庫(oracle、mysql、sql server*****)

比較大、多個、一般只做查詢select

3、畫圖:搭建資料倉儲的過程

1、mapreduce進行離線計算:訂單分析

2、離線計算特點:參考講義:p84頁

1、舉例:自來水廠處理自來水的過程

2、storm的體系結構簡介

3、實時計算框架

(1) storm

(2) spark streaming

(3) jstorm: 阿里巴巴

(4) flink: 最新的、不成熟

離線計算與實時計算的對比

就是在計算開始前已知所有輸入資料,輸入資料不會產生變化,一般計算量級較大,計算時間也較長。例如今天早上一點,把昨天累積的日誌,計算出所需結果。最經典的就是hadoop的mapreduce方式 一般是根據前一日的資料生成報表,雖然統計指標 報表繁多,但是對時效性不敏感。從技術操作的角度,這部分屬於批處...

資料結構與演算法 第四課

面試 指標 資料 truct結構體 結點 一 head.h 標頭檔案iostream 建立結點結構體struct node 建立單鏈表及功能實現 二 head.cpp建立各功能 1無參建構函式list list t a,int n 2析構函式list list 3遍歷函式void list prin...

Hadoop(三) 大資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!1 mapreduce是處理hdfs上的資料 2 mapreduce的思想 是pagerank 搜尋排名 原理是進行分布式計算。如上圖,網頁跳轉中,訪問網頁3的次數最多,也就是權重最大的為網頁3。比如京東 中給推薦的商品,就是近期訪問的...