1.回歸問題可以使用的模型
linear and polynomial regression,
neural networks,
regression trees,
random forests,
support vector regression,
***** bayes
2.kneighborsclassifier
特點:解決分類問題;neighbors的值設的越小,模型越複雜,方差大;neighbors的值設的越大,模型越簡單,方差小,決策邊界平滑;
提供**的baseline很方便;特徵太多(幾百個),運算會很慢;
適用小資料集
4.from sklearn.linear_model import ridge
帶l2正則化的線性回歸;
ridge(alpha=10).fit(x_train, y_train);alpha控制正則化程度,越大模型越簡單;
5.from sklearn.linear_model import lasso
l1正則化,可以用於特徵選取; 較小的alpha能擬合更複雜的模型,得到較好的結果,非0的特徵越多;提供更易於解釋的模型(因為使用的特徵少)
6.linearsvc(), logisticregression()
處理回歸問題,注意penalty parameter(c越小,模型越簡單,特徵引數少)設定
7.gaussiannb,bernoullinb, and multinomialnb.(引數alpha越大,模型越平穩,簡單[模型越複雜意味著容易過擬合];提供baseline;大資料集,高維資料)
gaussiannb:應用於任何連續的資料,適合處理高維資料
bernoullinb:處理二分類資料,文字分類
multinomialnb:處理計數資料,文字分類(大文字效果更好)
8.decisiontreeclassifier, decisiontreeregressor
防止過擬合,預裁剪,後裁剪;
sklearn只實現了預裁剪,通過控制樹的最大深度等屬性(max_depth, max_leaf_nodes, or min_samples_leaf),考慮劃分使用的最大特徵數等方法實現;
通過檢視dt的feature_importances_屬性,檢查各個特徵的重要性;
不需要正則化,標準化預處理資料;容易過擬合;
tree-based模型適合處理特徵相差較大的資料
9.randomforestregressor
解決dt過擬合問題;設定max_features(較大意味著dt相似性高)增加子dt多樣性;
分類:max_features=sqrt(n_features);回歸:max_features=log2(n_features)
n_estimators(設定盡可能大)越大,模型方差越小;n_jobs設定cpu並行;
不適合處理高維,稀疏,文字資料;
10.gradientboostingclassifier
max_depth:一般比較淺,設為1-5;
learning_rate一般預設;
n_estimators 太大容易過擬合;
不適合處理高維,稀疏,文字資料;
11.xgboost工具箱
實現了gradient boosting algorithm, stochastic gradient boosting, regularized gradient boosting;
執行速度非常快,
12.svc
sklearn 實現了兩種型別的核心:polynomial kernel,gaussian kernel(rbf);
引數gamma:控制高斯核心寬度,越大越容易過擬合;
引數c:正則化引數,越大越容易過擬合;
需要進行rescale的預處理,可以由minmaxscaler實現;
低維,高維特徵都適用;
樣本數太大(>100000),處理時間會很長;
適用中型規模資料;
13.mlpclassifier
引數hidden_layer_sizes:設定隱層層數,神經元數
alpha:控制正則化,越小越容易過擬合
需要進行rescale的預處理,standardscaler
適合處理homogeneous類資料
機器學習演算法之 最大熵模型總結
最大熵模型可由最大熵原理推出,最大熵原理是概率模型學習的乙個準則。最大熵原理認為在滿足已有事實的所有可能的概率模型中,熵最大的模型是最好的模型。x 是x的取值個數,上式表明當且僅當x的分布是均勻分布時右邊的等號成立,當x服從均勻分布時,熵最大。兩個步驟 給定資料集,考慮模型滿足的條件,可以確定聯合分...
機器學習模型評估總結
acc urac y nc orre ctnt otal accuracy frac accura cy n tota l nc orre ct n co rrec tn ncorre ct 被正確分類的樣本個數 n to taln ntotal 總樣本個數 存在問題 當不同類別的樣本比例不均衡時,...
機器學習演算法 模型 總章
2.分類和回歸 有監督學習 3.聚類 無監督學習 4.降維 無監督學習 5.整合學習 6.階段性總結 7.機器學習介紹 機器學習介紹 高階 我們根據模型訓練方式的不同,可以將機器學習的模型分為有監督學習和無監督學習兩大類。而根據學習目標的不同,有監督的學習可以分為分類和回歸兩類方法。機器學習演算法 ...