機器學習演算法模型特點總結

2021-09-26 16:11:44 字數 2140 閱讀 2818

1.回歸問題可以使用的模型

linear and polynomial regression,

neural networks,

regression trees,

random forests,

support vector regression,

***** bayes

2.kneighborsclassifier

特點:解決分類問題;neighbors的值設的越小,模型越複雜,方差大;neighbors的值設的越大,模型越簡單,方差小,決策邊界平滑;

提供**的baseline很方便;特徵太多(幾百個),運算會很慢;

適用小資料集

4.from sklearn.linear_model import ridge

帶l2正則化的線性回歸;

ridge(alpha=10).fit(x_train, y_train);alpha控制正則化程度,越大模型越簡單;

5.from sklearn.linear_model import lasso

l1正則化,可以用於特徵選取; 較小的alpha能擬合更複雜的模型,得到較好的結果,非0的特徵越多;提供更易於解釋的模型(因為使用的特徵少)

6.linearsvc(), logisticregression()

處理回歸問題,注意penalty parameter(c越小,模型越簡單,特徵引數少)設定

7.gaussiannb,bernoullinb, and multinomialnb.(引數alpha越大,模型越平穩,簡單[模型越複雜意味著容易過擬合];提供baseline;大資料集,高維資料)

gaussiannb:應用於任何連續的資料,適合處理高維資料

bernoullinb:處理二分類資料,文字分類

multinomialnb:處理計數資料,文字分類(大文字效果更好)

8.decisiontreeclassifier, decisiontreeregressor

防止過擬合,預裁剪,後裁剪;

sklearn只實現了預裁剪,通過控制樹的最大深度等屬性(max_depth, max_leaf_nodes, or min_samples_leaf),考慮劃分使用的最大特徵數等方法實現;

通過檢視dt的feature_importances_屬性,檢查各個特徵的重要性;

不需要正則化,標準化預處理資料;容易過擬合;

tree-based模型適合處理特徵相差較大的資料

9.randomforestregressor

解決dt過擬合問題;設定max_features(較大意味著dt相似性高)增加子dt多樣性;

分類:max_features=sqrt(n_features);回歸:max_features=log2(n_features)

n_estimators(設定盡可能大)越大,模型方差越小;n_jobs設定cpu並行;

不適合處理高維,稀疏,文字資料;

10.gradientboostingclassifier

max_depth:一般比較淺,設為1-5;

learning_rate一般預設;

n_estimators 太大容易過擬合;

不適合處理高維,稀疏,文字資料;

11.xgboost工具箱

實現了gradient boosting algorithm, stochastic gradient boosting, regularized gradient boosting;

執行速度非常快,

12.svc

sklearn 實現了兩種型別的核心:polynomial kernel,gaussian kernel(rbf);

引數gamma:控制高斯核心寬度,越大越容易過擬合;

引數c:正則化引數,越大越容易過擬合;

需要進行rescale的預處理,可以由minmaxscaler實現;

低維,高維特徵都適用;

樣本數太大(>100000),處理時間會很長;

適用中型規模資料;

13.mlpclassifier

引數hidden_layer_sizes:設定隱層層數,神經元數

alpha:控制正則化,越小越容易過擬合

需要進行rescale的預處理,standardscaler

適合處理homogeneous類資料

機器學習演算法之 最大熵模型總結

最大熵模型可由最大熵原理推出,最大熵原理是概率模型學習的乙個準則。最大熵原理認為在滿足已有事實的所有可能的概率模型中,熵最大的模型是最好的模型。x 是x的取值個數,上式表明當且僅當x的分布是均勻分布時右邊的等號成立,當x服從均勻分布時,熵最大。兩個步驟 給定資料集,考慮模型滿足的條件,可以確定聯合分...

機器學習模型評估總結

acc urac y nc orre ctnt otal accuracy frac accura cy n tota l nc orre ct n co rrec tn ncorre ct 被正確分類的樣本個數 n to taln ntotal 總樣本個數 存在問題 當不同類別的樣本比例不均衡時,...

機器學習演算法 模型 總章

2.分類和回歸 有監督學習 3.聚類 無監督學習 4.降維 無監督學習 5.整合學習 6.階段性總結 7.機器學習介紹 機器學習介紹 高階 我們根據模型訓練方式的不同,可以將機器學習的模型分為有監督學習和無監督學習兩大類。而根據學習目標的不同,有監督的學習可以分為分類和回歸兩類方法。機器學習演算法 ...