今日頭條核心技術「個性推薦演算法」揭秘

2022-03-04 16:39:18 字數 2262 閱讀 4999

1月20日,新生代移動網際網路企業今日頭條在北京國家會議中心舉辦了「算數·年度資料發布會」,資料發布會的主題名為「算數」,實際上指的是「演算法」與「資料」。

眾所周知,今日頭條是個個性化的新聞推薦引擎。在今日頭條ceo張一鳴看來,演算法是《今日頭條》這款興趣推薦搜尋引擎應用的核心,這也是與傳統**最本質的區別。今日頭條之所以能夠非常懂使用者,精準推薦出使用者所喜好的新聞,完全得益於演算法。而正是精準推薦,使得今日頭條在短短兩年多的時間內擁有了2.2億使用者,每天有超過2000萬使用者在今日頭條上閱讀自己感興趣的文章。

那麼今日頭條是怎麼做到為每乙個使用者按興趣精準推薦新聞的呢?在發布會上,今日頭條的技術副總裁楊震原給我們揭秘了今日頭條的個性化推薦核心「演算法」。

今日頭條的個性化推薦演算法原理

沒錯,今日頭條的個性化推薦演算法原理就是基於投票的方法,其核心理念就是投票,每個使用者一票,喜歡哪一篇文章就把票投給這篇文章,經過統計,最後得到結果很可能是在這個人群下最好的文章,並把這篇文章推薦給同人群使用者過程就是個性化推薦,實際上個性化推薦並不是機器給使用者推薦,而是使用者之間在互相推薦,看起來似乎很簡單,但實際上這需要基於海量的使用者行為資料探勘與分析。

今日頭條是如何來劃分人群和文章

搞技術的朋友都知道,內容推薦必須基於受眾人群,只有在確定受眾人群之後才能確定推薦內容,有的放矢才叫精準推薦。

我們假定上圖這個人群有8萬人,只有兩類:一類叫喜歡科技的人群,一類喜歡娛樂的人群,我們先分成兩類,每類有4萬人,我們又找到另乙個維度地域:上海和北京,喜歡科技的人有上海和北京的,喜歡娛樂的也有北京和上海的,我們把8萬人群分成四組,每組兩萬,我們再找年齡,30歲以上和以下,我們分成8個人群,每個人群1萬人,第1個是喜好科技,位置在北京,年齡30歲以上,這有1萬人,我們再以下面的喜歡娛樂,地點上海,人群1萬。

根據人群不同維度,我們可以細分到乙個合理的力度。特別需要注意的是:在細分的領域裡面投票數既不要太多,但也不要太少,因為太多沒有個性化,僅是乙個大眾關心的話題而已,而投票數太少又沒有統計意義,支援度就低了。

今日頭條是怎樣判斷乙個人屬於怎樣的人群

判斷乙個人屬於怎樣的人群相對簡單。比如地域,使用者的手機在什麼區域,就可以認為使用者是什麼地域的;比如說使用者興趣,可以根據使用者的閱讀習慣去判斷,使用者會經常去看科技的文章,那就可以判斷使用者屬於科技的人群;再比如說使用者的好友關係,使用者在今日頭條上面註冊了,使用者的好友都是娛樂圈的人,則該使用者很有可能也是娛樂圈的人;所以通過使用者在今日頭條上行為,以及使用者客觀的地理位置資訊,就能判斷使用者到底屬於乙個什麼樣的人群。

今日頭條的個性推薦演算法公式

精準推薦最難的不是劃分人群,也不是判斷使用者人群歸屬,更不是文章屬性判斷,乙個人可以屬於多個人群,也有多個文章候選,選那個推薦才是最難的。而今日頭條的推薦內容是怎麼算出來的呢?

通過上圖的計算公式:w1*候選1的投票率+w2*候選2的投票率+w3候選3的投票率+……=最高分,最後能計算出乙個得分,按得分的高低來排序,就可以得到推薦文章的乙個侯選,這個過程實際上是乙個比較簡單的演算法,而這在今日頭條內部叫邏輯回歸。

總的來說,個性化推薦技術本身並不神秘,歸根到底推薦演算法關鍵是還在於對海量使用者行為的資料分析與挖掘,也許各家演算法略有不同,但最終目的都是殊途同歸,為實現最精準的內容推薦而努力中。

今日頭條技術架構分析

今日頭條創立於2012年3月,到目前僅4年時間。從十幾個工程師開始研發,到上百人,再到200餘人。產品線由內涵段子,到今日頭條,今日特賣,今日電影等產品線。2014年5月1.5億,2015年5月3億,2016年5月份為5億。幾乎為成倍增長。2014年為1000萬日活,2015年為3000萬日活。接下...

今日頭條的核心架構解析

今日頭條創立於2012年3月,到目前僅4年時間。從十幾個工程師開始研發,到上百人,再到200餘人。產品線由內涵段子,到今日頭條,今日特賣,今日電影等產品線。2014年5月1.5億,2015年5月3億,2016年5月份為5億。幾乎為成倍增長。2014年為1000萬日活,2015年為3000萬日活。1 ...

RSS推送技術 打造自己的今日頭條

當下來看,使用rss技術使你再也不會被一些充滿廣告的的新聞平台推送不感興趣的資訊。也減少了被惡意收集資料的可能 部分新聞源不支援rss技術 不能參與對內容的討論,減少了互動性 此處不再做各家閱讀器的對比,請參考少數派的文章 ps 類似少數派 愛範兒這種 資訊的 都是支援rss訂閱的 訂閱方法 最簡單...