對於巨型網際網路公司來說,為了控制資料規模,降低訓練開銷,降取樣幾乎是通用的手段,facebook 實踐了兩種降取樣的方法,uniform subsampling 和 negative down sampling。
uniform subsampling 是對所有樣本進行無差別的隨機抽樣,為選取最優的取樣頻率,facebook 試驗了 0.001,0.01,0.1,0.5 和 1 五個取樣頻率,loss 的比較如下:當取樣率是 10% 時,相比全量資料訓練的模型,僅損失了不到 1% 的效果。
negative down sampling保留全量正樣本,對負樣本進行降取樣。除了提高訓練效率外,負取樣還直接解決了正負樣本不均衡的問題,facebook 經驗性的選擇了從 0.0001 到 0.1 的一組負取樣頻率。當負取樣頻率在 0.025 時,loss 不僅優於更低的取樣頻率訓練出來的模型,居然也優於負取樣頻率在 0.1 時訓練出的模型。
負取樣帶來的問題是 ctr 預估值的漂移,比如真實 ctr 是 0.1%,進行 0.01 的負取樣之後,ctr 將會攀公升到 10% 左右。而為了進行準確的競價以及 roi 預估等,ctr 預估模型是要提供準確的有物理意義的 ctr 值的,因此在進行負取樣後需要進行 ctr 的校正,使 ctr 模型的預估值的期望回到 0.1%。校正的公式如下:
ctr預估的負取樣比率修正公式
降取樣和模型校正
ctr負取樣矯正原理
shell學習三十七天 引用
引用 案例,如果我想輸出乙個星號 使用echo 如何做?echo 這是肯定不行的,需要將 轉移,即 echo 這樣就引出了引用的概念.所為引用 是用來防止 shell 將某些你想要的東西解釋成不同的意義 如果你希望某些可能被 shell 視為個別引數的東西保持為單個引數 這時你就必須將其引用.引用的...
學習前端的第三十七天
js的物件的分類 本地物件 宿主物件 所有的自定義物件 注 例項化 轉化成實際的案例 補充關鍵字 delete,用來刪除自定義物件的屬性 只能刪除自定義物件的屬性,且一次只能刪乙個屬性 math數學物件,不需要數學知識支撐,使用這個物件直接得到想要的結果 方法 math.round math.cei...
機器學習 樣本處理
樣本處理 模型冷啟動 構建專家規則模型 前期比機器學習模型重要 平滑過渡 充分部分優先切換 產品 資料 產品的重要性 資料技術不是核心競爭力,但資料是。樣本分佈不一致的解決方案 不一致會有什麼問題?樣本資料和實際資料的分布不一致。難點在於發現 意識到 需要清楚產品需要什麼 樣本不平衡的解決方案 樣本...