今天開始會持續學習一些state-of-art的特徵選擇方法,跟大家分享一下學習的心得和這些方法的主要思想,希望能對同志們的工作有所啟發。
首先我們看的是一篇2023年發表在pami(ieee transactions on pattern analysis and machine intelligence)上的文章《feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy》。之所以先看這篇是因為在實驗中我首先跟這篇文章中的方法做的比較,發現這個裡面提到的mrmr方法魯棒性較好,在各個資料集上的分類準確率排名都能保持在前列,同時計算時間也較短。這也是我自己的方法首先挑戰的物件。
既可以選出單個表示力較好的特徵(最大相關度),有可以使得這些單個較好的特徵之間相互冗餘度最小(最小冗餘)
,這就是mrmr方法的核心思想。
這個公式是用來衡量相似度大小的。
這個公式是用來衡量冗餘度大小的。
然後將這兩個公式統一到乙個目標函式中:
即
然後解這個目標函式的最優化問題,求得能使其最大的特徵子集就行了。
好了,最後總結一下這個方法,思想就是不光考慮單個特徵還考慮了特徵間的相互聯絡。就像我們考慮區域性情況的同時要考慮全域性的情況。在團隊中,個人不能為了貪圖自己的利益最大化而損害了整個團隊的利益,這樣到頭來團隊沒了自己的利益也就徹底沒了。想一想,科學中的道理和日常生活中很多道理都是通的,歸根到底大家都是由哲學衍生的嘛,大家做研究時不妨嘗試將這些道理融入進來,沒準乙個新的成果就出來了。
機器學習特徵選擇方法
有一句話這麼說,特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。通常來說,從兩個方面考慮來選擇特徵 相關係數法 使用相關係數法,先要計算各個特徵對目標值的相關係 常用的有皮爾遜相關係數,斯皮爾曼秩係數,可見本部落格中...
機器學習特徵選擇方法
有一句話這麼說,特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。通常來說,從兩個方面考慮來選擇特徵 特徵是否發散 如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並...
機器學習特徵選擇方法
特徵決定上限,模型逼近上限。特徵選擇對後面的模型訓練很重要,選擇合適重要的特徵,對問題求解尤為重要,下面介紹一些常見的特徵選擇方法。通常來說,從兩個方面考慮來選擇特徵 特徵是否發散 如果乙個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。特徵...