關於騰訊演算法大賽

本文參考於我協會前會長吳師兄的文件

賽題比較難理解, 因為賽題屬於廣告學範疇, 如果實在難以理解賽題的可以先看看這篇文章, 看完再重新看一遍賽題就會通透許多轉化率預估

賽題要求

評估方式(賽題中提供的計算公式)

通過logarithmic loss評估(越小越好)，公式如下：

其中，n是測試樣本總數，

yi是二值變數，取值0或1，表示第i個樣本的label，

pi為模型**第i個樣本 label為1的概率。

示例**(python語言實現)：

專案目的

主要在於剖析和學習大賽中取得第64 名大牛的分享，對其**進行理解和分析，主要著重點在於特徵工程。

機器學習的主要流程

機器學習流程

資料分析和清洗方法

值得注意的是，本次競賽的訓練資料提供的截止第31天0點的廣告日誌，因此，對於最後幾天的訓練資料，某些label=0並不夠準確，可能廣告系統會在第31天之後得知label實際上為1。

即最後幾天有部分資料不準確

對於這個問題, 這裡採用了比較暴力的方法, 將最後幾天這些可能會出現問題的資料刪除

特徵工程

特徵工程即根據基本的資料提取出更多有用的資料, 然後結合基本特徵來選取最終決定需要採用訓練的特徵資料, 往往特徵工程決定了最終**的效果

基本資料在官方已經提供了資料描述的**, 這個一定要好好理解每乙個欄位的作用, 這裡就不重複描述資料的字段了

在這裡先強調一下，在做完特徵工程之後, 我們得到了更多的特徵, 但並不是每乙個特徵都對模型的訓練有用, 故此我們需要對特徵進行篩選 (不僅僅是單方面的取捨, 還需要根據重要的程度進行權重的分配)

通過資料分析，計畫以下的特徵作為最終的訓練資料標籤

1.基礎特徵：計數特徵、轉化率、比例特徵等各種基本的特徵(各種id)

3.使用者歷史行為特徵：word2vec 計算使用者行為與歷史行為的關聯

1. 基礎特徵

要作過多的處理

2、3 使用者行為特徵的處理

使用者行為特徵的處理邏輯較為繁瑣，也是整個專案中最繁瑣的操作，邏輯比較難理

清，建議通過原始碼來理解

關於騰訊演算法大賽

本文參考於我協會前會長吳師兄的文件賽題比較難理解,因為賽題屬於廣告學範疇,如果實在難以理解賽題的可以先看看這篇文章,看完再重新看一遍賽題就會通透許多轉化率預估賽題要求評估方式賽題中提供的計算公式通過logarithmic loss評估越小越好公式如下其中，n是測試樣本總數，yi是二值...

騰訊校園之星創新設計大賽總結

1.idea很重要。你做的東西一定要足夠創新，這樣也暗示了程式設計實力再好是沒有用的。soso關注的創新不足，實用有餘。2.儘管是測試介面，前台很重要。不過我還是盡可能的用了許多web2.0的效果出來。3.要體現你的技術。儘管我採用了 php頂層，c 底層的架構。或許沒有很高深的演算法是我們沒有晉級...

騰訊廣告演算法大賽初賽第一名心得分享

1 特徵工程在初賽時候我們發現one hot的特徵和我們的統計特徵差異性很大，所以我們在自己近百維的統計特徵上直接加入了one hot的特徵，帶來了7個千左右的提高，而我們的統計特徵為了防止資訊洩露都是採用5 fold的方式提取的。而在複賽的時候因為資料量的大量增加，one hot特徵已經無法使用...

關於騰訊演算法大賽

關於騰訊演算法大賽

騰訊校園之星 創新設計大賽 總結

騰訊廣告演算法大賽 初賽第一名心得分享

相關推薦

騰訊校園之星創新設計大賽總結

騰訊廣告演算法大賽初賽第一名心得分享