**自:
lb,cv分數
在某些比賽中,由於資料分布比較奇葩或是雜訊過強,public lb 的分數可能會跟 local cv 的結果相去甚遠。可以根據一些統計測試的結果來粗略地建立乙個閾值,用來衡量一次分數的提高究竟是實質的提高還是由於資料的隨機性導致的。
資料探索
資料預處理:
這一部分的處理策略多半依賴於在前一步中探索資料集所得到的結論以及建立的視覺化圖表
feature 為主,調參和 ensemble 為輔
機器學習中的bagging技巧
bagging是增強原演算法的一種手段。神經網路 分類問題 回歸問題 線性回歸中的子集選擇問題 k最近鄰演算法都可以使用bagging來加強。使用bagging加強後的演算法的效能會出現一些有規律的變化。一般而言,若原來的演算法的穩定性差,使用bagging後,演算法的準確率會得到較大程度的提高。若...
機器學習中的核技巧
真正接觸核方法應該是在 svm 正常情況下,感知機演算法和支援向量機都是預設資料是線性可分的,這類問題叫做線性分類問題。當資料線性不可分的時候,但高維可分 這個不理解可以多看看書 我們仍然想用線性分類的方法去解決,這個時候就需要用非線性變換將非線性問題轉換成線性問題。於是,我們得到求解非線性分類問題...
機器學習 初識機器學習
1.什麼是機器學習?對於機器學習到現在都還沒有統一的定義,但是,通過乙個例子和較權威的定義來理解機器學習,最後附上我個人對機器學習的理解 2.監督學習 1 監督學習基本思想 我們資料集中的每個樣本都有相應的 正確答案 即每個樣本都是真實值,再根據這些樣本作出 舉乙個房價預售的例子來說明 eg 下面圖...