聽說決賽考機器學習,而且有7.5小時,就很慌。
後來聽說之前那些人都是現場學的,就決定現場學習乙個吧。
先看題,大概是個點選量**,就是給你一大堆已經有的資料,包括時間、地點、興趣愛好等資料以及是否點選了,又給了一堆資料要你**點選率。
去問了一下zjt,他說了一堆東西,但是我都聽不懂。
接著就自己上網查了一下,查到了乙個東西叫做「樸素貝葉斯分類「,看起來挺簡單有效的,就去寫了。
思路大概是這樣的:
根據貝葉斯公式,有
\[p(點選\mid (男,喜歡))=\frac
\]然後我們假設特徵之間獨立,就是
\[p((男,喜歡)\mid 點選)=p(男,點選)\times p(喜歡,點選)
\]分母的話,點選的概率和不點選的概率兩部分的分母是一樣的,直接忽略的就好了。
這樣就可以求出概率了。
還有乙個東西叫做拉普拉斯平滑,感興趣的同學可以自己搜尋一下。
這個東西看起來挺簡單的,寫起來確實也挺簡單的。
由於給的資料的格式我不會處理,我就只能自己寫,花了我兩三個小時。
後面的算概率部分寫起來還是挺快的,不到半個小時就寫完了。
自己測了一下測試集,logloss(這個東西我到最後面都沒有搞懂是怎麼算的)大概是 0.37,然後交上去測了一下(計分的是另乙個測試集)logloss 竟然高達 0.58。我也沒搞懂是怎麼回事。
最後就在胡亂調參,最優解到了 0.37。我也忘記我調了什麼了。。。
然後好像弄到了三等獎?
不過還是打不過深度學習老哥。
先鴿著,回學校再放。
計蒜客 2019計蒜之道D
題意 現在給定你乙個字串 s ss 以及乙個整數 k kk,請求出 s ss的字典序最小的長度為 k kk的子串行。資料範圍 0 s 5000000 00 s 5000 000 樣例輸入 helloworld 5樣例輸出 ellld思路 假如我們先不考慮長度為k的限制我們應當怎麼做?我們以樣例為例子...
2020 計蒜之道 線上決賽 C 攀登山峰
乙個序列 a i 每次詢問 l,r,t 表示詢問 l,r 內出現了大於 frac 次的最大的數是什麼。n le 10 5 感覺這題之前cf見過,直接搬那題的做法。tle。事實證明這題正解比cf那題高到不知道 去了。維護權值線段樹,建主席樹,表示一段字首中每個樹各自的出現次數。線段樹上維護和。查詢的時...
2019 計蒜之道 複賽 D 「星雲系統」
現在給定你乙個字串s以及乙個整數k,請求出s的字典序最小的長度為k的子串行。題目鏈結 第一行乙個由小寫英文本母構成的字串s,第二行乙個正整數k。一行乙個字串ans,表示答案。0helloworld 5ellld 設串長為n,則只需刪掉n k個字元。用乙個單調棧維護,依次將字串的每個字元插入,如果當前...