我的騰訊looksalike解題思路

2022-08-13 02:57:16 字數 771 閱讀 7730

賽題:

分析:1.使用者是多個,廣告也是多個,乙個使用者可能對多個廣告產生行為,乙個廣告也可能被對多個使用者點選,這顯然是不好處理的.我們假設只有乙個廣告,那麼他對於使用者而言只有兩種情況,被點選和不被點選,這就成了乙個二分類的問題.我們把使用者特徵與廣告特徵拼接,作為x,把與x對應的是否點選作為y,對於離散資料做分類可以使用knn,支援向量機,決策樹/隨機森林..對於離散資料.使用這些方法之前最好先做稀疏處理,我們最常用的方法是onehot.在另一篇博文裡介紹了這種方法的優缺點,我想可以用w2v或者autoencoding處理一些關聯較大的資料,比如interest1.我們的資料有四個g,稀疏處理後將會變得更大,可以對資料先拆分,我會分享順序拆分的**.

2.我還有一種思路,就是先對使用者特徵稀疏化,做kmeans聚類,判斷同類使用者與廣告之間的關係,這樣問題可能會簡單一些

3.親測只有knn或者的決策樹的話準確率不會比隨機猜測高太多,我們在他之前再套一層boosting演算法

4.考慮到記憶體溢位,我把訓練集分塊進行訓練,得到每塊的模型,當用整個測試集進行測試的時候出現了shape不匹配的問題,問題應該是資料集不完全包括測試集的特徵,導致one-hot編碼後維度不同,解決的辦法:把每塊資料集與測試集整合編碼。

5.第一周結果出來,有大佬做了總結,他們採用裡gbdt和deepfm結合的方式來做,前乙個是梯度提公升樹,屬於treemodel,後者是乙個深度模型,華為2023年提出的使用者推薦演算法,它基於特徵工程,對小塊資料用gbdt做特徵挖掘,再進行特徵的拼接和分割,然後用deepfm訓練,大佬的演算法就是厲害,這些我都不會

資料:可以聯絡我要

騰訊要脅我了

現在上網隨便蒐個什麼東西都是敏感詞。由於我搜尋都用google,經常莫名其妙的被長城給攔了。那天孩子咳嗽,想查下資料。去goole一搜 兒童咳嗽 結果提示我 連線失敗 其實我當然知道是長城給擋住了。我當時就感到很奇怪啊,難道兒童咳嗽也是敏感詞?我來除錯一下,先輸入咳嗽,可以搜尋,再輸入兒童咳嗽,被 ...

記錄我的騰訊成長之旅

2011.07.19 下午熟悉了下公司的內網,各種bbs,各種oa,傳說中的體驗q幣吶 2011.07.20 第一天上班,導師讓直接看android的文件。開始吧 2011.07.28 看了乙個星期,參加鬥地主專案 2011.09.10 結項,整個專案感觸良多啊。謝謝abi,will,jarge,謝...

騰訊雲Ubuntu我的配置

linux 新增使用者 useradd m name 增加乙個使用者,並為它建立乙個資料夾 passwd name 設定使用者密碼 usermod s bin bash name 給新使用者增加bash 命令解析 sudo chmod 640 etc sudoers 修改sudo檔案,增加可以修改屬...