第四課記錄離線計算與實時計算

1、舉例：

（1）電商：商品推薦 ----> 問題1：大量的訂單如何儲存？問題2：大量的訂單如何計算？

（2）天氣預報 ----> 問題1：大量的天氣資料如何儲存？問題2：大量的天氣資料如何計算？

2、大資料解決核心問題：

（1）資料的儲存 ---> 解決：分布式的檔案系統（儲存資料）。

hdfs(hadoop distributed file system)，**於gfs（google file system）

倒排索引（找到資料）

（2）資料的計算 ---> 解決：分布式的計算模型（mapreduce，**pagerank問題），來自於google

3、ibm提出大資料定義：5個v

1、hadoop其實就是資料倉儲的一種實現方式

2、資料倉儲：就是乙個資料庫（oracle、mysql、sql server*****）

比較大、多個、一般只做查詢select

3、畫圖：搭建資料倉儲的過程

1、mapreduce進行離線計算：訂單分析

2、離線計算特點：參考講義：p84頁

1、舉例：自來水廠處理自來水的過程

2、storm的體系結構簡介

3、實時計算框架

(1) storm

(2) spark streaming

(3) jstorm: 阿里巴巴

(4) flink: 最新的、不成熟

離線計算與實時計算的對比

就是在計算開始前已知所有輸入資料，輸入資料不會產生變化，一般計算量級較大，計算時間也較長。例如今天早上一點，把昨天累積的日誌，計算出所需結果。最經典的就是hadoop的mapreduce方式一般是根據前一日的資料生成報表，雖然統計指標報表繁多，但是對時效性不敏感。從技術操作的角度，這部分屬於批處...

資料結構與演算法第四課

面試指標資料 truct結構體結點一 head.h 標頭檔案iostream 建立結點結構體struct node 建立單鏈表及功能實現二 head.cpp建立各功能 1無參建構函式list list t a,int n 2析構函式list list 3遍歷函式void list prin...

Hadoop（三）大資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎，通俗易懂！風趣幽默！1 mapreduce是處理hdfs上的資料 2 mapreduce的思想是pagerank 搜尋排名原理是進行分布式計算。如上圖，網頁跳轉中，訪問網頁3的次數最多，也就是權重最大的為網頁3。比如京東中給推薦的商品，就是近期訪問的...

第四課記錄 離線計算與實時計算

離線計算與實時計算的對比

資料結構與演算法 第四課

Hadoop（三） 大資料離線計算與實時計算

相關推薦

第四課記錄離線計算與實時計算

資料結構與演算法第四課

Hadoop（三）大資料離線計算與實時計算