**
一.網際網路廣告特徵工程
博文《網際網路廣告綜述之點選率系統》論述了網際網路廣告的點選率系統,可以看到,其中的logistic regression模型是比較簡單而且實用的,其訓練方法雖然有多種,但目標是一致的,訓練結果對效果的影響是比較大,但是訓練方法本身,對效果的影響卻不是決定性的,因為訓練的是每個特徵的權重,權重細微的差別不會引起ctr的巨大變化。
在訓練方法確定後,對ctr預估起到決定性作用的是選用的特徵。
1.1特徵選擇與使用
做點選率預估需要兩方面的資料,一方面是廣告的資料,另一方面是使用者的資料,現在所有的資料都有,那麼工作就是利用這兩方面的資料評估使用者點選這個廣告的可能性(也就是概率)。
使用者的特徵是比較多的,使用者的年齡,性別,地域,職業,學校,手機平台等等。廣告的特徵也很豐富,如廣告大小,廣告文字,廣告所屬行業,廣告。還有反饋特徵,如每個廣告的實時ctr,廣告跟性別交叉的ctr。如何從這麼多的特徵中選擇到能刻畫乙個人對乙個廣告的興趣的特徵,是資料探勘工程師的乙個大難題。
選中了特徵,還需要注意特徵的選擇方式,例如,如果單獨把年齡作為乙個特徵,最終能訓練出來啥嗎?因為年齡相加相減是沒有意義的,所以只能把每個年齡做為乙個特徵,但是光這樣可以了嗎?怎麼用特徵,是廣告演算法工程師的乙個大課題。
1.1.1 選擇特徵
1.1.2 特徵的處理和使用
選擇得到特徵,怎麼用也是乙個問題。
先說需求,其實預估ctr要做的事情是下面的圖的工作——計算乙個使用者/廣告組合的ctr。
上面已經選好了特徵,暫定有廣告的反饋ctr,使用者年齡,性別三個特徵。
一、離散化
反饋ctr是乙個浮點數,直接作為特徵是可以的,假設1號特徵就是反饋ctr。對應年齡來說就不是這樣了,因為年齡不是浮點數,而且年齡的20歲跟30歲這兩個數字20,30大小比較是沒有意義的,相加相減都是沒有意義的,在優化計算以及實際計算ctr是會涉及這兩個數字的大小比較的。如w.x,在w已經確定的情況下,x的某個特徵的值是20,或者30,w.x的值相差是很大的,哪怕用邏輯化公式再比較,得到的值也是比較大的,但是往往20歲的人跟30歲的人對同乙個廣告的興趣差距不會那麼大。解決這樣的情況的方法就是,每個年齡乙個特徵,如總共只有20歲到29歲10種年齡,就把每個年齡做乙個特徵,編號是從2到11(1號是廣告的反饋ctr),如果這個人是20歲,那麼在編號為2的特徵上的值就是1,3到11的編號上就是0。這樣,年齡這一類特徵就有了10個特徵,而且這10個特徵就是互斥的,這樣的特徵稱為離散化特徵。
二、交叉
這樣看起來就能解決上面的問題了,但是夠了嗎?
比如乙個人是20歲,那麼在編號為2的特徵上面,它一直都是1,對籃球的廣告是1,對化妝品的廣告也是1,這樣訓練的結果得到的編號為2的權重的意義是——20歲的人點選所有的廣告的可能性的都是這個權重,這樣其實是不合理的。
有意義的應該是,這個20歲的人,當廣告是跟體育相關的時候,它是乙個值;當廣告跟保健品相關的時候,它又是乙個值。這樣看起來才合理。如果這個不夠深刻,基於跟上面同樣的道理,性別這個特徵也是一樣的,假如也做了上面的離散化操作,編號是12和13,12是男性,13是女性。這樣的話,對於乙個男性/體育廣告組合來說,編號12的特徵值為1,男性/化妝品的組合的編號12的特徵值也是1。這樣也是不合理的。
怎麼做到合理呢?以上面的性別的例子來說。編號12的特徵值不取1,取值為該廣告在男性使用者上面的點選率,如對於男性/體育廣告的組合,編號12的特徵的值為男性在體育廣告上面點選率,這樣,編號為12的特徵就變成了乙個浮點數,這個浮點數的相加減是有意義的。
這樣的做法稱為特徵的交叉,現在就是性別跟廣告的交叉得到的特徵值。還有很多其他的方式可以進行交叉,目前工業上的應用最多的就是廣告跟使用者的交叉特徵(編號為1的那個特徵)、廣告跟性別的交叉特徵,廣告跟年齡的交叉特徵,廣告跟手機平台的交叉特徵,廣告跟地域的交叉特徵。如果做得比較多,可能會有廣告主(每個廣告都是乙個廣告主提交的乙個投放計畫,乙個廣告主可能會提交多個投放計畫)跟各個特徵的交叉。
三、連續特徵變離散特徵
做到的交叉的特徵值就足夠了嗎?答案還是不一定。
如編號為1的那個特徵,就是廣告本身的ctr,假設網際網路廣告的點選率符合乙個長尾分布,叫做對數正態分佈,其概率密度是下圖(注意這個是假設,不代表真實的資料,從真實的資料觀察是符合這麼樣的乙個形狀的,好像還有雅虎的平滑的那個**說它符合beta分布)。
1.1.3 特徵的過濾與修正
致謝
參考文獻
[1] ad click prediction: a view from the trenches. h. brendan mcmahan, gary holt et al,google的**
[2]
DEMO 網際網路廣告RTB機制簡介
前言 傳統的網際網路廣告一般都是大流量 在頁面中留出一定空位,某些推廣商家通過買位的方式來展示自己的廣告。首頁每天很多人訪問,那麼阿里雲想要推廣就會租下其首頁右側欄的某些矩形空位,在這有限的空位中通過插入js或swf來進行廣告展示。當然這個廣告是有期限的。這樣的廣告對於推廣公司來講,效果一般不是很好...
關於網際網路廣告的推廣技巧
談到現在的網際網路廣告,找相關行業大號 kol 大v做推廣肯定是經常被提起的,大家做活動策劃方案也好,做廣告投放 軟文推廣也好.裡面都會加上這個。但是,誰都知道,大號貴啊,動輒幾萬十幾萬的,有多少公司能持續燒得起?當然,這是之前的資料,很多可能更貴了。雖然有一些不實的地方,但是著實也是驚出一身冷汗。...
網際網路廣告的進化之路 技術篇 計算廣告
根據行業第三方調研機構發布的近些年網際網路廣告行業的實力分布資料顯示,bat三家佔據了網際網路廣告的絕對領先地位,其關鍵因素不僅是這三家巨頭的品牌和市場,更是他們擁有的海量資料。網際網路廣告系統的最初形式,與傳統的線下廣告類似,廣告主一般直接與 等內容提供商洽談合約,同時也通過 來開發廣告創意 購買...