PySpark入門十六 機器學習庫ML和MLlib

2021-10-09 08:39:23 字數 349 閱讀 3855

兩個庫都適用於機器學習,且可以滿足大多數場景需求;

spark 在3.0版本後將會棄用mllib 所以現在學習的同學們,可以直接學習ml就好了,不用學習mllib了;

ml主要操作的是dataframe,而mllib是處理的rdd物件,相比較而言,處理dataframe會比處理rdd更加簡潔和靈活。ml對dataframe的抽象級別更高,資料和操作的耦合度很低;

ml的操作可以使用pipeline,就像sklearn一樣,把特徵提取、演算法等操作可以串起來,會非常的方便和流暢;

ml中無論是什麼模型,統一了演算法操作介面,比如模型訓練都是fit,這和sklearn幾乎是一模一樣,不像mllib中不同模型會有不同的train;

PySpark學習資源

環境搭建及基礎 子雨大資料及spark入門教程 python版 apache spark中國技術社群 spark structured streaming structured streaming using python dataframes api 超讚 structured streaming...

機器學習 十六 機器學習演算法總結(1)

監督學習 knn演算法計算測試樣本與訓練集的各樣本的距離,按從小到大取前k個距離排序,然後選擇這k個最相似資料中出現次數最多的分類作為新資料的分類。樸素貝葉斯實現的是概率量化計算的模型,它的解釋是通過對樣本的統計,然後算出某件事a發生的概率和某件事b發生的概率之間的量化關係。決策樹實現的是通過選擇合...

PySpark入門二 認識RDD

彈性分布式資料集,簡稱為rdd,是不可變jvm物件的分布式集合,spark 就是圍繞rdd而構建的。rdd對物件的作業是非常快速的執行的,這依賴於rdd的計算是依據快取和儲存在記憶體中的模式進行。rdd有兩組並行操作 轉換和動作。轉換是指返回指向新rdd的指標 動作是指在執行計算後返回值。同時,rd...