一、對資料以及檔案進行說明如下
評判標準如下
二、特徵工程
1、由於比賽中提供了兩張表,所以第一步需要將將兩張表聯絡起來。採用的是將每個使用者的交易記錄與距離該交易記錄時間最短的一次成功登入記錄進行關聯
2、針對登入時間戳,登入時長與交易時長,發現在午夜發生風險的可能比較大,取時間戳的小時數作為乙個特徵。
3、取使用者發生交易的時間與使用者使用者的登入時間戳(前提是同乙個id)取差值,作為乙個新的特徵。
4、city、ip、device、log_from、type是否發生了頻繁變化作為新的特徵(同時,原來的city、ip、device、log_from、type就可以捨掉了)。
5、對原來的log_from,type列進行one-hot(有關離散化、onehot、歸一化等後續整理說明)處理。
三、模型與不足的總結
1、在train資料集進行劃分的過程中,劃分方式為隨機劃分,但是登入時間交易時間與是否有異常交易應該存在乙個時間序列問題,所以嚴格上應該選擇train檔案最後的資料作為test集。
2、應該多嘗試幾種模型,例如svm、lr等,並進行bagging、stacking操作。
3、xgboost模型需要深入調引數
京東模擬登入
京東表示很無奈,爬蟲都用它練手 登入時,瀏覽器傳送了乙個post請求,在請求頭上帶了基本引數,並不是所有引數在模擬時都需要,一般需要cookie,referer,和user agent 會話物件requests.session能夠跨請求地保持某些引數,比如cookies,即在同乙個session例項...
京東登入頁
1 doctype html 2 html 3 head lang en 4 meta charset utf 8 5 title 京東登入頁 title 6 style 7header div 15.content 18.wrap 22.login box 26h2 36h2 a 46.login...
京東商城登入邏輯分析,實現程式登入京東商城
做這件事的初衷是最近發現有京豆這東西,獲取京豆的方法之一就是每天登入,於是想寫乙個自動登入京東的程式,放入自啟動,每天自動登入。分析工具為foxfire加firebug,進入登入頁面new login.aspx,會從伺服器端返回帶有id uuid type hidden value a2c762bd...