關於MATLAB處理大資料座標檔案201761

前幾天備戰考試，接下來的日子將會繼續攻克大資料比賽

雖然停止了一段時間沒有提交資料，但是這幾天的收穫還是有的，對python 隨機森林了解的更了解了

隨機森林是由多課決策樹組成（當然這個雖然我們初學者都知道，但是我確定沒有現在認識的深刻），多棵決策樹經過資料訓練後，經過投票方式對測試資料進行判斷

那麼也就是說隨機森林的魯棒性非常好，我們現有的特徵還不是特別多，之所以前一段時間出現「過擬合」現象，其實原因有可能是我們當時急功近利，把大多數正確率高的特徵放在一起測試資料，導致的「過擬合」，其實非也，只是我們自己的條件太過苛刻。突然想到乙個詞叫做「二八定律」，可以完美解釋現在的領悟，20%的時間可以解決80%的問題，20%的人占有80%的資源，但是——其中還含有那抹不去的80%的時間或者問題。那現在可以理解為，20%的特徵可以解釋80%的問題，那就是好特徵，但是卻不能忽視剩下的80%的特徵

接下來的日子我們應該繼續尋找特徵，直到達到真正的過擬合，才不枉這次比賽

關於MATLAB處理大資料座標檔案201761

關於MATLAB處理大資料座標檔案2017527

關於大資料之批處理SpringBatch

關於大資料

關於MATLAB處理大資料座標檔案201761

關於MATLAB處理大資料座標檔案2017527

關於大資料之批處理SpringBatch

關於大資料

相關推薦