最近鄰
適用於小型資料集,是很好的基準模型,很容易解釋
線性模型
非常可靠的首選演算法,適用於非常大的資料集,也適用於高維資料。
樸素貝葉斯
只適用於分類問題。比線性模型速度快,適用於非常大的資料集和高維資料。精度通常低於線性模型。
決策樹
速度很快,不需要資料縮放,可以視覺化,很容易解釋
隨機森林
魯棒性很好。不需要資料縮放。不適用於高維稀疏資料
梯度提公升決策樹
精度通常比隨機森林略高,訓練速度慢,**速度快,所需記憶體少。比隨機森林需要更多的引數調節
支援向量機
適用於特徵含義相似的中等大小資料集,需要資料縮放,引數敏感
神經網路
可以構建非常複雜的模型,特別是對於大型資料集而言。資料縮放敏感,引數選取敏感。大型網路需要很長訓練時間。
採用投票法指定分類結果,以k個鄰居中占多數的類別作為分類結果。
注意:僅使用單一鄰居每個樣本都對結果有顯著影響
優點:容易理解;構建模型速度快。
缺點:樣本數過大或者特徵數過多時,**速度比較慢;不能處理有很多特徵的資料集。
單一特徵的**結果:一條直線
兩個特徵的**結果:乙個平面
更高維度的**結果:乙個超平面
1) 線性回歸(普通最小二乘法)
尋找引數w (權重或係數)和b (偏移或截距),使得對訓練集的**值與真實的回歸目標值y的均方誤差最小。
特點:線性回歸沒有引數,但也因此無法控制模型的複雜度。可以通過測試集和訓練集的效能差別判斷是欠擬合還是過擬合。
2) 嶺回歸
在普通最小二乘的基礎上,對係數(w)的選擇還要你和附加約束,希望w中的所有元素接近於0。即每個特徵對輸出的影響盡可能小(斜率很小)。用到l2正則化(懲罰了係數的l2範數或歐式長度)。
特點:如果有足夠多的資料,正則化的重要性會降低,嶺回歸和線性回歸將具有同樣的效能。
3) lasso回歸
用到l1正則化(懲罰了係數的l1範數,即係數的絕對值之和)。l1正則化的結果,使用lasso時某些係數剛好為0(特徵被忽略,可以看做是一種自動化的特徵選擇)。
特點:如果把alpha設的過小,會消除正則化的效果,並出現過擬合,得到與線性回歸類似的結果。
決策邊界是輸入的線性函式,線性分類器是利用直線、平面或超平面來分開的兩個類別的分類器。
線性模型演算法的區別:
決定正則化的權衡引數——c。
c越大,對應的正則化越弱。
更強的正則化使得係數更趨於0,但係數永遠不會正好等於0。
c較大:盡可能將訓練集擬合到最好;強調每個資料點都分類的重要性。
c較小:更強調使係數向量接近於0;盡量適應「大多數」資料點。
1) logistic 回歸
預設使用l2正則化。
2) 線性支援向量機(線性svm)
3) 多分類線性模型
常見方法:「一對其餘」方法。每個類別學習乙個二分類模型,將其與其他類別區分開來。
線性模型的主要引數是正則化引數
回歸分類
正則化引數
alpha
c對模型的影響
alpha越大,模型較簡單
c越小,模型較簡單
通常在對數尺度上對alpha和c進行搜尋。
優點:
缺點:通過單獨檢視每個特徵來學習引數,並從每個特徵中收集簡單的類別統計資料。
優點:訓練速度更快,對高維係數資料的效果好,對引數的魯棒性(robust)相對較好,適用於非常大的資料集
缺點:泛化能力較差
本質:從一層層的if/else問題進行學習得出結論。
遞迴過程生成一棵二元決策樹,每個內部節點包含乙個測試。可以將每個測試看成沿著一條軸對當前資料進行劃分。由於每個測試僅關注乙個特徵,所以劃分後的區域邊界始終與座標軸平行。
未剪枝的樹容易過擬合,對新資料泛化效能不佳。
防止過擬合的策略:
特徵重要性為每個特徵對樹的決策的重要性進行排序,每個特徵都是介於0到1的數字,所有之和為1。
優點:得到的模型容易視覺化;演算法不收資料縮放的影響
缺點:對於所有基於樹的回歸模型來說,不能外推,也不能在訓練資料範圍之外進行**;經常會過擬合,泛化效能差。
整合:合併多個模型來構建更強大模型的方法。
思想:多棵決策樹的集合,每棵樹都以不同的方式過擬合,採取平均值降低過擬合。
將隨機性新增到樹的構造過程中,以確保每棵樹都不同。
隨機化方法: 構造
對資料進行自助取樣,有放回的抽取樣本,共抽取n次。
基於新資料集來構造決策樹,隨機選擇特徵的乙個子集,並對其中乙個特徵尋找最佳測試。 特點
優點:
缺點:思想:合併多個決策樹來構建乙個更為強大的模型。採用連續的方式構造樹,每棵樹試圖糾正前一棵樹的錯誤。
引數learning_rate用於控制每棵樹糾正前一棵樹的錯誤的強度,較高的學習率意味著每棵樹都可以做出較強的修正,使得模型更複雜。
可以通過限制最大深度、降低學習率防止過擬。
特點缺點:
優點:svc:分類問題 svm:回歸問題
原理:直接計算擴充套件特徵表示中資料點之間的距離(內積),而不用實際對擴充套件進行計算
多項式核
在一定階數內計算原始特徵所有可能的多項式
徑向基函式核(高斯核)
考慮所有階數的所有可能的多項式,階數越高,特徵的重要性越小
支援向量:通常只有一部分訓練資料點對於決策邊界來說很重要:位於類別之間邊界上的那些點
分類決策:基於它與支援向量之間的距離以及在訓練過程中學到的支援向量重要性來做出的
高斯核: krb
f(x1
,x2)
=exp
(−γ∣
∣x1−
x2∣∣
2)
k_(x_1,x_2)=exp(-\gamma ||x_1-x_2||^2)
krbf(
x1,
x2)
=exp
(−γ∣
∣x1
−x2
∣∣2)
γ控制高斯核寬度的引數。
gamma:較小,說明高斯核的半徑較大,生成更複雜的模型。反之亦然。
c:較小,每個點的影響範圍有限。
優點:
缺點:啟用函式:
校正非線性 relu:截斷小於0的值
正切雙曲線 tanh:輸入較小時接近-1,輸入較大時接近+1
性質:在開始學習之前權重是隨機設定的,隨機初始化會影響到學到的模型。也就是說,即使用完全相同的引數,如果隨機種子不同,也可得到非常不一樣的模型。
優點:
缺點:
調參方法:
首先建立乙個大到足以過擬合的網路,確保網路可以對任務進行學習。之後,要麼縮小網路,要麼增大alpha來增強正則化,提高泛化效能。
監督學習和無監督學習 監督學習與非監督學習
監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...
監督學習,無監督學習和半監督學習
監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...
監督學習 非監督學習 半監督學習(主動學習)
統計學習通常包括監督學習 非監督學習 半監督學習以及強化學習,在機器學習的領域中前三種研究的比較多的,也是運用的比較廣泛的技術。監督學習的任務是學習乙個模型,使模型對給定的任意的乙個輸入,對其都可以對映出乙個 結果。這裡模型就相當於我們數學中乙個函式,輸入就相當於我們數學中的x,而 的結果就相當於數...