強 大資料第二講

2022-09-05 15:27:15 字數 626 閱讀 2737

hadoop的背景起源一: gfs: google file system

一、什麼是大資料,本質?

(1)資料的儲存:分布式檔案系統(分布式儲存)-----> hdfs: hadoop distributed file system

(2)資料的計算:分布式計算

二、如何解決大資料的儲存?----> 分布式檔案系統(hdfs,**於gfs)

舉例:網盤

(1) gfs: 沒有硬碟的,資料只能存在記憶體中

(2) hadoop的安裝模式

(*)本地模式 :1臺

(*)偽分布模式:1臺

(*)全分布模式:3臺

如何解決大資料的儲存?

什麼是pagerank?

第二講 資料結構

include using namespace std const int n 100010 int e n ne n head 1,idx 向煉表頭插入乙個數x o 1 void add to head int x 在第k個插入的數後面插入乙個數x o 1 要用鍊錶那就是o n void add ...

第二講 資料預處理

1 資料集由資料物件構成,資料物件由屬性來描述,屬性的型別由屬性可取的值決定 2 標稱型別,二元屬性 對稱,非對稱 序數屬性,數值屬性 離散 連續屬性 3 資料的統計描述 中心性度量 均值,中值,眾數,中位數 離散性度量 方差,標準差,分位數 注 分位數 五數概括 最小值,q1,中值,q3,最大值 ...

第二講案例

一 使用登入cookie方法 使用第一講案例中查詢響應檔案的方式找到該頁面的doc檔案,獲取請求頭中的cookie資訊 將該資訊以鍵值對的形式儲存到請求頭引數中即可,請使用自己的cookie值 headers 爬取完整程式如下,可參考 import requests def local 1 準備引數...