連續兩周做特徵工程
1、資料預處理,這是個相當麻煩的過程,尤其資料來源給出的字段沒有實際含義需要手動直接命名的時候。
注意點:
2、特徵構建
3、特徵分析
主要包括資料的查得率、特徵的覆蓋率、特徵與label的相關性
import pyarrow.feather as feather
df = feather.write_dataframe('data-1023/pass-all-onlyclog-feature.fth', nthreads=20)
df = feather.read_dataframe('data/feature/card_feats_0729_1031.fth', nthreads=20)
4、特徵選擇
利用一系列的方法,相關性覆蓋率等。也別選太狠,還可以通過調參嘛
一段**只允許存在乙個try語句!!
注意分析相關性和覆蓋率靠前的特徵是否可靠,相當於重新檢查一遍構造特徵的**,若有錯誤,最好重新跑一遍特徵工程,防止**細節不相符。
5、模型訓練
模型的選擇考慮很多因素,目前一般採用樹模型。
注意模型的儲存格式,以及特徵的格式等問題。
軟體工程助教工作總結
3.助教工作期間發布部落格彙總 4.點評作業數量統計 5.改進教學工具 由於每次作業都需要統計學生成績,生成千帆競發圖。每一次統計都特別的不方便。為了更加快速,便捷的統計學生成績。團隊中李尚諾同學專門編寫了乙個指令碼,用於生成千帆競發圖,在這個程式的基礎上,我們又針對這一需求,由整個助教團隊開發了乙...
工作總結 2010 3 16
在cuda中,一般的資料複製到的顯示卡記憶體的部分,稱為global memory。這些記憶體時沒有cache 的,而且,訪問global memory所需要的時間 即latency 是非常長的,通常是數百個cycles.如果我們的程式只有乙個thread,所以每次它讀取global memory的...
找工作總結
算一算,從2008年9月份開始找工作,到2009年12月現在已經有3個月了 找工作,算是人生一段特殊的經歷吧,知道了很多公司,認識了很多人,也學習到了很多東西,對這個社會也認識的更清楚了。從一開始的自信,以為很多崗位都是為自己量身打造,卻一次次被bs,讓我很受打擊。特別是幾個好公司的筆試都沒有通過,...