參加了乙個學習小組,大家一起思考問題,正好討論特徵選擇的問題,就記錄一下,很多問題的思考還是比較好的,希望可以幫助大家,也感謝一些討論的小夥伴。
特徵選擇時有過濾法、包裝法,整合法,這些方法在應用的時候有沒有什麼特別的應用場景,還是隨機選擇?
總之任何一種特徵選擇方法都有其優缺點的,但最終目的都是為了優化模型,將各種方法選出的特徵放到模型中去驗證,看其對模型的影響。
過濾法其實相對來說每次特徵提取應該還是穩定的,基本上是確定了特徵之後再開始訓練模型等等,所以個人認為不太可能存在每次篩選的特徵都不一樣,只能說用包裝法、整合方選擇的演算法不一樣導致的特徵不一樣,具體可以在任務中對比一下,結合任務來做選擇,這個好像跟個人經驗非常相關。
我所知道的,時間序列的特徵衍生是最多的,以每週、每月作為週期,以工作日、週末休息日作為單獨的特徵等等,這些衍生的特徵都是非常具有意義的,舉例乘地鐵,工作日大家上下班,地鐵可能會多一些的,休息日,大家很多人待在家裡,不愛出去,地鐵流量就少很多,某些地鐵站的流量可能會因為週末大漲,比如景點地鐵站。描述統計的一些指標:均值 眾數 最大最小 標準差等等。所以特徵衍生是有必要的,出現新特徵也是有參考價值的。詳細例子可以參考特徵衍生
總結下大家的,
特徵衍生的一些常用套路有
根據業務理解對多個特徵間做加減乘除處理,比如面積和**,就可以生成乙個單位面積**
構建描述性統計的指標,比如均值 方差 眾數
還可以考慮將特徵構造不同的組別,比如年齡可以構造成 幼兒 少年 青年 中年 老年等,城市也可以劃分為一線城市、二線城市等等。
iv值可以衡量某個特徵對目標的影響程度,根據iv值過濾的特徵,這個取值範圍該怎麼選比較合適,極端值的處理方式?iv分箱有什麼注意事項?
求iv值遇到極端值時怎麼處理? 比如說為0 該怎麼處理。做平滑嗎?根據隨機森林選取特徵 計算出feature_importances_的值以後 ,是根據從大到小排列之後 又該怎麼篩選特徵?
iv **能力
<0.03 無**能力
0.03-0.09 低
0.1-0.29 中
0.3-0.49 高
>= 0.5 極高且可疑
管理的一些問題換位思考
博弈中的管理 1 不按時發薪水極大挫敗員工的積極性,從而導致的消極怠工問題產生。晚幾天能產生多少利息。要會取捨。2 做越多錯越多責任越多好處越少,員工要花本該用於做事的精力來找理由藉口推卸責任。不能讓老黃牛吃虧。3 員工流失,不要抱怨員工,而是該想想你哪沒做好。是不是更多的考慮了自己的利益,而沒有為...
0302思考並回答一些問題
說說你的感想。另外繼續思考以下問題 人潮洶湧的招聘市場,準備拿什麼去找工作?需要在大學學到一技之長嗎?需要準備什麼專業技能?如何看待it行業?以後是否願意從事it行業?對教學方式有什麼建議?閱讀 構建之法 第7頁,理解評分規則。閱讀 構建之法 第5頁,是否認同教練與學員的關係?閱讀 構建之法 第一章...
0302思考並回答一些問題
教育部 訊息,2015年高校畢業生將達749萬,就業形勢依然嚴峻,要進一步增強信心,打好基礎,完善機制,全力做好高校畢業生就業創業工作。而it行業還將得到進一步的發展,這是毫無疑問的,伴隨著行業的發展,it人才的短缺現象將會越來越嚴重。據保守估計,目前中國市場對it人才的需求每年超過20萬人。而國內...