hadoop的背景起源一: gfs: google file system
一、什麼是大資料,本質?
(1)資料的儲存:分布式檔案系統(分布式儲存)-----> hdfs: hadoop distributed file system
(2)資料的計算:分布式計算
二、如何解決大資料的儲存?----> 分布式檔案系統(hdfs,**於gfs)
舉例:網盤
(1) gfs: 沒有硬碟的,資料只能存在記憶體中
(2) hadoop的安裝模式
(*)本地模式 :1臺
(*)偽分布模式:1臺
(*)全分布模式:3臺
如何解決大資料的儲存?
什麼是pagerank?
第二講 資料結構
include using namespace std const int n 100010 int e n ne n head 1,idx 向煉表頭插入乙個數x o 1 void add to head int x 在第k個插入的數後面插入乙個數x o 1 要用鍊錶那就是o n void add ...
第二講 資料預處理
1 資料集由資料物件構成,資料物件由屬性來描述,屬性的型別由屬性可取的值決定 2 標稱型別,二元屬性 對稱,非對稱 序數屬性,數值屬性 離散 連續屬性 3 資料的統計描述 中心性度量 均值,中值,眾數,中位數 離散性度量 方差,標準差,分位數 注 分位數 五數概括 最小值,q1,中值,q3,最大值 ...
第二講案例
一 使用登入cookie方法 使用第一講案例中查詢響應檔案的方式找到該頁面的doc檔案,獲取請求頭中的cookie資訊 將該資訊以鍵值對的形式儲存到請求頭引數中即可,請使用自己的cookie值 headers 爬取完整程式如下,可參考 import requests def local 1 準備引數...