特徵選擇 最優化搜尋 與 特徵背後

2021-09-05 01:16:27 字數 616 閱讀 5572

周一王博士將對船**影響最大的特徵:fuel180(船用油)** 和 北方到乍浦(2-3w)神海**(因為乍浦最靠近目標港口)加入回歸模型。 對剩下的80多個特徵,我們分別用週三周四的時間各自進行了選擇。

特徵太多。我嘗試將p_value<0.05的所有特徵放進回歸模型,效果並不好。因此,一狠心,做了個遺傳演算法,將之前選的特徵事先跳出來,對剩下的特徵進行提取。設定迭代為300代,最後的結果是選出26個特徵,加上原來的,有31個特徵。mae為5.86,比之前的mae提高將近0.5, 我覺得挺好。

但周五例會跟王博士展示時這種方法受到了批評,選擇的特徵中有許多是跟目標關係很小的。我們在看訓練後的線性回歸模型,coef_>0.05的只有6個。這些特徵加上之前的15個,最後訓練得到的模型的mae為6。

因此,最優化搜尋並不是特徵選擇的絕殺,還是要考慮與特徵與目標的關係。

另:猜想: 在訓練模型之前並沒有將資料歸一化,我們猜測有數值比較大的列(6000-8000),數值比較小的列(0.06-0.08),可能會影響係數,導致有的係數過小(<0.05,可認為係數無關)。可以做一下歸一化資料後建模,看有沒有影響。

檢視誤差項和剩餘特徵的相關性,繼續選擇相關性較強的特徵加入。

總結,特徵選擇要挖掘特徵與目標變數的關係,而不是直接搜尋。

特徵選擇與特徵組合

特徵選擇 特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 ...

特徵選擇與特徵提取

一 特徵選擇和特徵提取 特徵選擇 feature selection 和特徵提取 feature extraction 都屬於降維 dimension reduction 這兩者達到的效果是一樣的,就是試圖去減少特徵資料集中的屬性 或者稱為特徵 的數目 但是兩者所採用的方式方法卻不同。特徵提取的方法...

(八)特徵選擇與特徵提取

在描述物件的時候 模式識別中把每個物件都量化為一組特徵來描述,構建特徵空間是解決模式識別問題的第一步,其中通過直接測量得到的特徵稱為原始特徵。如 人體的各種生理指標 以描述健康狀況 數字影象中的每點的灰度值 以描述影象內容 原始特徵的形成一般包含三大類 物理 結構和數學特徵 物理和結構特徵 易於為人...