強大資料第二講

hadoop的背景起源一： gfs: google file system

一、什麼是大資料，本質？

（1）資料的儲存：分布式檔案系統（分布式儲存）-----> hdfs: hadoop distributed file system

（2）資料的計算：分布式計算

二、如何解決大資料的儲存？----> 分布式檔案系統(hdfs，**於gfs)

舉例：網盤

(1) gfs: 沒有硬碟的，資料只能存在記憶體中

(2) hadoop的安裝模式

（*）本地模式：1臺

（*）偽分布模式：1臺

（*）全分布模式：3臺

如何解決大資料的儲存？

什麼是pagerank?

第二講資料結構

include using namespace std const int n 100010 int e n ne n head 1,idx 向煉表頭插入乙個數x o 1 void add to head int x 在第k個插入的數後面插入乙個數x o 1 要用鍊錶那就是o n void add ...

第二講資料預處理

1 資料集由資料物件構成，資料物件由屬性來描述，屬性的型別由屬性可取的值決定 2 標稱型別，二元屬性對稱，非對稱序數屬性，數值屬性離散連續屬性 3 資料的統計描述中心性度量均值，中值，眾數，中位數離散性度量方差，標準差，分位數注分位數五數概括最小值，q1,中值，q3，最大值 ...

第二講案例

一使用登入cookie方法使用第一講案例中查詢響應檔案的方式找到該頁面的doc檔案，獲取請求頭中的cookie資訊將該資訊以鍵值對的形式儲存到請求頭引數中即可，請使用自己的cookie值 headers 爬取完整程式如下，可參考 import requests def local 1 準備引數...

強 大資料第二講

第二講 資料結構

第二講 資料預處理

第二講案例

相關推薦

強大資料第二講

第二講資料結構

第二講資料預處理