明明是移動推薦演算法,非要搞成二分類問題。。
機器學習什麼的不太懂,什麼訓練集測試集驗證集,什麼交叉驗證,什麼lr svm,什麼weka之類的,不管了。。
大神學姐說主要還是在找特徵,模型什麼的不是很重要。我這邊著的主要是u-i關係的一些比率特徵
1.購買該品牌次數/總購買次數
2.使用者對a的行為次數/使用者總的行為次數
3.在對a訪問的那些天裡,使用者對a的訪問次數/那寫天裡的從瀏覽次數
4.在對a訪問的那些天理,a的銷量/那寫天裡所有物品的總銷量
5.使用者對a有行為的天數/使用者總的有行為的天數
6.使用者對a有購買行為的天數/使用者有購買行為的從天數
7.使用者對a的收藏次數/瀏覽次數
8.使用者對a的關注次數/瀏覽次數
9.使用者對a加購物車的次數/瀏覽次數
10.使用者最近一次購買a距離現在的天數
大部分特徵借鑑感謝大神分享~
第一次天池大資料,廣東客流競賽
排名 168,成績72.93 第一名82.9 訓練資料 1 得到資料後匯入資料庫 2 統計資料中各個時段和各個線路的count數目 資料由一千萬變為一萬以內 3 統計6 21時的資料 資料條目再次降到5000左右 天氣資料 4 表中的年月日進行字元規整 替換成同一模式 為了和訓練資料表結合 5 天氣...
大資料特徵
大資料特徵可歸納為 5v 3i 7 8 即 海 量資料規模 volume 高速資料流動 velocity 靈活資料體系 vitality 豐富資料型別 variety 潛在資料價值 value 資源成本投資 investments 技術理論與應用方案創新 innovation 自由開放的資料邏輯。較...
大資料 特徵工程
1 單變數特徵篩選 計算每乙個特徵與響應變數的相關性 工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具 如sklearn的mine 得到相關性之後就可以排序選擇特徵了 2 ...