PySpark入門十八 ML之評估器

2021-10-09 09:23:18 字數 836 閱讀 1115

評估器被視為需要評估的統計模型,對資料做**或分類。包含了七種分類。

logisticregresssion: 邏輯斯蒂回歸,實際作用於二分類場景;

decisiontreeclassifier: 決策樹,適用於分類場景。maxdepth:限制樹的深度,mininstancepernode:樹節點觀察資料的最小數量,maxbins:引數指定連續變數將被分割的bin的最大數量,impurity:測量並計算來自分割資訊的度量;

gbtclassifier: 用於分類的梯度提公升決策樹模型,集合多個弱分類的模型形成乙個強健的模型,支援二進位制標籤、連續特徵和分類特徵;

randomforestclassifier:隨機森林,支援二元標籤和多項標籤,對觀察物件進行分類;

*****bayes:貝葉斯定理,條件概率理論對資料分類,支援二元標籤和多項標籤;

multilayerperceptronclassifier:多層感知機分類器,模仿人類大腦本質的分類器,理論基礎為神經網路理論,該模型通常包含三層:輸入層(需要和訓練資料中特徵的數量一樣)、多個隱藏層、輸出層,其中,神經元個數等於標籤中的類別數量。輸入層和隱藏層中的所有神經元都有sigmod啟用函式,輸出層的啟用函式為softmax;

onevsrest:將多元分類問題簡化為二分類問題。在多標籤情況下,模型可以訓練成多個二元邏輯回歸模型,所有模型分別積分,具有最高概率的模型獲勝。如果label==2,模型將構建乙個邏輯回歸,將label為2的轉換為1,其餘標籤值轉化為0,然後訓練二元模型。

這就是今天學習的ml的7個評估器,對多層感知機的理解更加清晰了一些,之前學習深度學習的時候,一直處於懵懂的狀態,之後會分享資料建模案例。 學習資料建模,先弄明白模型的邏輯和使用場景是十分必要的。

PySpark入門十六 機器學習庫ML和MLlib

兩個庫都適用於機器學習,且可以滿足大多數場景需求 spark 在3.0版本後將會棄用mllib 所以現在學習的同學們,可以直接學習ml就好了,不用學習mllib了 ml主要操作的是dataframe,而mllib是處理的rdd物件,相比較而言,處理dataframe會比處理rdd更加簡潔和靈活。ml...

PySpark入門十二 資料清洗之離群值

構造資料 導包 from pyspark import sparkcontext from pyspark.sql.session import sparksession 連線 sc sparkcontext.getorcreate spark sparksession sc 生成資料 df out...

PySpark入門十三 資料清洗之描述性統計

描述性統計是熟悉資料的最直接的方法之一,可以讓我們很輕鬆就知道資料中有多少個缺失的觀測資料 平均值 標準差 最大最下值 導包和建立連線的 我就不寫了 載入資料型別模組 import pyspark.sql.types as typ 載入資料 fraud sc.textfile ccfraud.csv...