3 特徵工程和特徵選擇
思路如下:
第5步,特徵選擇。經過第四步的過程,會生成大量的特徵,裡面有優秀的特徵,也有無用的特徵。如果不加以選擇,反而會造成維度災難。特徵選擇的常用方法一般分為兩種,一種是係數型:考慮每一列特徵與label 之間的線性或者非線性關係。比如pearson能夠發現特徵間的線性關係。一種是基於模型的特徵重要性排序:每乙個模型在設定好合適的引數訓練完畢之後,會對所有特徵進行打分,可以看出特徵針對於該模型的重要程度。
第6步 模型訓練與調優 這塊內容我在之前部落格裡已經提及,這裡就不再細說了。
第7步,模型融合。模型融合是一項很重要的工作。究其原因是因為對於每個單模型來說,它都有自己擅長的地方,它們處理特徵的方式不一樣,處理特徵的方法不一樣,對於這些具有差異性的模型進行融合,一般來說能夠形成合力,使得**效果更加有效。模型融合的方法很多,簡單的方法通常是各個單模型取得最優之後,再去做乙個加權計算。複雜的方法可能如模型套模型的組合,這樣的方法需要經驗豐富才敢使用,因為它的可解釋性差。
以上是我和另外兩名隊友做比賽的一點經驗,由於我組水平尚淺,以複賽第27名結束比賽(初賽500選100,複賽100選6)。比賽過程中遇見到不少大神,founder,bryan等等,學到了很多資料探勘的經驗。以後繼續努力,繼續挑戰!
拍拍貸魔鏡杯風控演算法大賽專案
資料集構成 三萬條已知標籤的訓練集,二萬條不知標籤的測試集 訓練集和測試集均有三種表 master 主要的特徵表 log info 使用者登陸資訊表 userupdate info 客戶資訊修改更新表 1 master 每一行代表乙個樣本 一筆成功成交借款 每個樣本包含200多個各類字段。idx 每...
「魔鏡」風控系統 卡爾數科助力智慧型風控新發展
今年 5 月卡爾數科智慧型風控決策引擎2.0 版 魔鏡 風控系統正式公升級上線。從卡爾金融到卡爾數科,全新公升級的 www.cppcns.com魔鏡 風控系統在客戶信用資料 車輛驗真估值 多平台預警服務等多個方面進行優化,從而www.cppcns.com進一步規避風險,對智慧型風控體系建設有著重要意...
第四屆「強網杯」全國網路安全挑戰賽部分WP
題目如下 highlight file index.php if preg match flag i get ip system ping c 3 get ip 先用乙個ls命令嘗試一下回顯 只要讀出flag.php即可得到flag 而題目的 有正則過濾flag 這裡用到模糊查詢即可得到flag 題...