我的機器學習知識點彙總

2021-10-23 21:59:32 字數 973 閱讀 5477

啥時候有時間就寫點,不定期更新。

回歸任務

mse,mae,mape,mspe

分類任務

準確率,精度precision,召回率recall,f1(2pr/(p+r)),roc,auc

樣本劃分

k折交叉驗證

留出法方差&偏差

減少方差的方法:

1.增加樣本數量

2.降低主要特徵的權重,減少特徵數量,增加正則化。

減少偏差的方法:

1.eda重做,新增nb特徵,和新增各種變形特徵。

2.降低正則化強度。

過擬合&欠擬合

原因:原始特徵過多,存在一些嘈雜特徵, 模型過於複雜是因為模型嘗試去兼顧各個測試資料點

解決辦法:

1)重新清洗資料,考慮異常值剔除。導致過擬合的乙個原因也有可能是資料不純導致的,如果出現了過擬合就需要我們重新清洗資料。

2)增大資料的訓練量,還有乙個原因就是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。

3)降低特徵的權重,減少特徵數量,增加正則化係數。

4) 對於knn來說,近鄰的數量非常的重要

原因:學習到資料的特徵過少

解決辦法:eda重做。

1)新增其他特徵項,有時候我們模型出現欠擬合的時候是因為特徵項不夠導致的,可以新增其他特徵項來很好地解決。例如,「組合」、「泛化」、「相關性」三類特徵是特徵新增的重要手段,無論在什麼場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。除上面的特徵之外,「上下文特徵」、「平台特徵」等等,都可以作為特徵新增的首選項。

2)新增多項式特徵,這個在機器學習演算法裡面用的很普遍,例如將線性模型通過新增二次項或者三次項使模型泛化能力更強。

1.業務理解

2.資料分析

3.特徵工程

4.建模調參

5.模型融合

6.模型評估

7.專案落地

資料歸一化

新增鏈結描述

新增鏈結描述

機器學習知識點

1.knn 不適合用來對特徵分布進行分析。2.強化學習中的mdp模型 環境狀態的集合 動作的集合 在狀態之間轉換的規則 規定轉換後 即時獎勵 的規則 描述主體能夠觀察到什麼的規則。3.otsu推到 4.繪製曲線 plt.plot hist.history loss plt.plot hist.his...

機器學習知識點

2.感知機 3 k近鄰法 4.樸素貝葉斯 5.決策樹 6.邏輯回歸與最大熵模型 7.支援向量機 8.整合學習 9.em演算法 10.隱馬爾科夫模型與條件隨機場 11.聚類方法 1.1 監督學習關於資料的基本假設是什麼?1.2 模型的假設空間是什麼?1.3 統計學習三要素 1.4 損失函式的定義,有哪...

機器學習相關知識點

1 tp 將正類 為正類數 fn 將正類 為負類數 fp 將負類 為正類數 tn 將負類 為負類數 精確率 precision p tp tp fp 反映了被分類器判定的正例中真正的正例樣本的比重。準確率 accuracy a tp tn p n tp tn tp fn fp tn 反映了分類器統對...