本文參考於我協會前會長吳師兄的文件
賽題比較難理解, 因為賽題屬於廣告學範疇, 如果實在難以理解賽題的可以先看看這篇文章, 看完再重新看一遍賽題就會通透許多轉化率預估
賽題要求
評估方式(賽題中提供的計算公式)
通過logarithmic loss評估(越小越好),公式如下:
其中,n是測試樣本總數,
yi是二值變數,取值0或1,表示第i個樣本的label,
pi為模型**第i個樣本 label為1的概率。
示例**(python語言實現):
專案目的
主要在於剖析和學習大賽中取得 第64 名大牛的分享, 對其**進行理解和分析, 主要著重點在於特徵工程。
機器學習的主要流程
機器學習流程
資料分析和清洗方法
值得注意的是,本次競賽的訓練資料提供的截止第31天0點的廣告日誌,因此,對於最後幾天的訓練資料,某些label=0並不夠準確,可能廣告系統會在第31天之後得知label實際上為1。
即最後幾天有部分資料不準確
對於這個問題, 這裡採用了比較暴力的方法, 將最後幾天這些可能會出現問題的資料刪除
特徵工程
特徵工程即根據基本的資料提取出更多有用的資料, 然後結合基本特徵來選取最終決定需要採用訓練的特徵資料, 往往特徵工程決定了最終**的效果
基本資料在官方已經提供了資料描述的**, 這個一定要好好理解每乙個欄位的作用, 這裡就不重複描述資料的字段了
在這裡先強調一下,在做完特徵工程之後, 我們得到了更多的特徵, 但並不是每乙個特徵都對模型的訓練有用, 故此我們需要對特徵進行篩選 (不僅僅是單方面的取捨, 還需要根據重要的程度進行權重的分配)
通過資料分析,計畫以下的特徵作為最終的訓練資料標籤
1.基礎特徵:計數特徵、轉化率、比例特徵等各種基本的特徵(各種id)
3.使用者歷史行為特徵:word2vec 計算使用者行為與歷史行為的關聯
1. 基礎特徵
要作過多的處理
2、3 使用者行為特徵的處理
使用者行為特徵的處理邏輯較為繁瑣, 也是整個專案中最繁瑣的操作, 邏輯比較難理
清,建議通過原始碼來理解
關於騰訊演算法大賽
本文參考於我協會前會長吳師兄的文件 賽題比較難理解,因為賽題屬於廣告學範疇,如果實在難以理解賽題的可以先看看這篇文章,看完再重新看一遍賽題就會通透許多轉化率預估 賽題要求 評估方式 賽題中提供的計算公式 通過logarithmic loss評估 越小越好 公式如下 其中,n是測試樣本總數,yi是二值...
騰訊校園之星 創新設計大賽 總結
1.idea很重要。你做的東西一定要足夠創新,這樣也暗示了程式設計實力再好是沒有用的。soso關注的創新不足,實用有餘。2.儘管是測試介面,前台很重要。不過我還是盡可能的用了許多web2.0的效果出來。3.要體現你的技術。儘管我採用了 php頂層,c 底層的架構。或許沒有很高深的演算法是我們沒有晉級...
騰訊廣告演算法大賽 初賽第一名心得分享
1 特徵工程 在初賽時候我們發現one hot的特徵和我們的統計特徵差異性很大,所以我們在自己近百維的統計特徵上直接加入了one hot的特徵,帶來了7個千左右的提高,而我們的統計特徵為了防止資訊洩露都是採用5 fold的方式提取的。而在複賽的時候因為資料量的大量增加,one hot特徵已經無法使用...