啥時候有時間就寫點,不定期更新。
回歸任務
mse,mae,mape,mspe
分類任務
準確率,精度precision,召回率recall,f1(2pr/(p+r)),roc,auc
樣本劃分
k折交叉驗證
留出法方差&偏差
減少方差的方法:
1.增加樣本數量
2.降低主要特徵的權重,減少特徵數量,增加正則化。
減少偏差的方法:
1.eda重做,新增nb特徵,和新增各種變形特徵。
2.降低正則化強度。
過擬合&欠擬合
原因:原始特徵過多,存在一些嘈雜特徵, 模型過於複雜是因為模型嘗試去兼顧各個測試資料點
解決辦法:
1)重新清洗資料,考慮異常值剔除。導致過擬合的乙個原因也有可能是資料不純導致的,如果出現了過擬合就需要我們重新清洗資料。
2)增大資料的訓練量,還有乙個原因就是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。
3)降低特徵的權重,減少特徵數量,增加正則化係數。
4) 對於knn來說,近鄰的數量非常的重要
原因:學習到資料的特徵過少
解決辦法:eda重做。
1)新增其他特徵項,有時候我們模型出現欠擬合的時候是因為特徵項不夠導致的,可以新增其他特徵項來很好地解決。例如,「組合」、「泛化」、「相關性」三類特徵是特徵新增的重要手段,無論在什麼場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。除上面的特徵之外,「上下文特徵」、「平台特徵」等等,都可以作為特徵新增的首選項。
2)新增多項式特徵,這個在機器學習演算法裡面用的很普遍,例如將線性模型通過新增二次項或者三次項使模型泛化能力更強。
1.業務理解
2.資料分析
3.特徵工程
4.建模調參
5.模型融合
6.模型評估
7.專案落地
資料歸一化
新增鏈結描述
新增鏈結描述
機器學習知識點
1.knn 不適合用來對特徵分布進行分析。2.強化學習中的mdp模型 環境狀態的集合 動作的集合 在狀態之間轉換的規則 規定轉換後 即時獎勵 的規則 描述主體能夠觀察到什麼的規則。3.otsu推到 4.繪製曲線 plt.plot hist.history loss plt.plot hist.his...
機器學習知識點
2.感知機 3 k近鄰法 4.樸素貝葉斯 5.決策樹 6.邏輯回歸與最大熵模型 7.支援向量機 8.整合學習 9.em演算法 10.隱馬爾科夫模型與條件隨機場 11.聚類方法 1.1 監督學習關於資料的基本假設是什麼?1.2 模型的假設空間是什麼?1.3 統計學習三要素 1.4 損失函式的定義,有哪...
機器學習相關知識點
1 tp 將正類 為正類數 fn 將正類 為負類數 fp 將負類 為正類數 tn 將負類 為負類數 精確率 precision p tp tp fp 反映了被分類器判定的正例中真正的正例樣本的比重。準確率 accuracy a tp tn p n tp tn tp fn fp tn 反映了分類器統對...