本文由 「infoq 編輯對微博機器學習計算和服務平台負責人胡南煒進行了採訪,詢問了關於微博旗下的語音直播平台——紅豆 live 應用 ai 技術的詳細情況,以及他對 ai 的深入了解和趨勢**。紅豆live推薦演算法中召回和排序的應用和策略
作者|胡南煒
編輯|emily
紅豆 live 的 ai 布局
據該產品官網資料顯示,2017 年 1 月,紅豆 live 面向大眾全面開放,kol 入駐量達 5000+,主播總數量 4 萬人,開啟了乙個全民語音直播的時代。而這款產品的成功,按照該公司的說法,是「ai 發揮的作用不可忽略」。那麼,紅豆 live 中究竟採用了哪些 ai 技術?這家公司在 ai 技術方面是否有著深遠的布局呢?
從技術層面講,紅豆 live 在 ai 領域使用了語音識別、推薦排序等深度學習技術;其中在推薦排序中紅豆 live 經歷了三次演算法迭代,從協同過濾到基於內容的推薦,最後到基於音訊譜圖隱藏特徵的深度學習**模型的演進。「每次的演算法迭代都是為了解決使用者發現更多優質主播以及提高語音直播內容傳播的目標。」胡南煒說道。
眾所周知,企業採用 ai 技術需要高昂的成本,在採用這些技術後究竟能產生多大的效果,這是人們非常關心的問題。胡南煒表示,紅豆 live 的推薦模型目標是發現更多主播、使用者留存、平均收聽時長 3 項。在應用深度學習**模型後,從資料表現上,該平台的主播發現率較人工運營時提高了 135%,使用者留存率提公升 20%,平均收聽時長增長 80%。這款產品在應用 ai 後三個重要指標均有較大**,因此可以說,深度學習模型對於其業務是有著明顯影響的。
語音直播相對來說受眾數量較小,那這類產品靠什麼來吸引使用者呢?胡南煒認為,雖然語音直播受眾數量較小,但確實有效解決了一部分垂直使用者的痛點需求。在他看來,直播主要可以滿足使用者兩個方面的需求:娛樂需求和價值需求。顧名思義,娛樂需求是指人們對於娛樂的追求以獲得精神滿足,直播等視聽感受結合的形式可以滿足大眾的娛樂需求;而滿足價值需求,是指直播能給使用者帶來專業的知識、實用的技能、思路的啟發等具有實際意義的東西,解決現實問題。在這方面,他認為語音直播更具優勢。另外,音訊直播可以更好的將使用者的注意力聚焦在內容本身上並降低直播成本,ai 可以幫助忠粉和垂直使用者更便利、更有針對性的獲取到自己所喜歡的語音內容,從而解決內容獲取的痛點。
推薦系統的技術支援詳情
推薦系統的成功離不開背後的技術支援,而部署 ai 更需要強大的技術來做支撐。
紅豆 live 推薦系統中使用 cnn+lstm 用在標籤服務裡面,把直播間中一些隱藏特徵自動化的提取、關聯、抽象出來,準備率比起傳統機器學習演算法大大提高。在 wide & deep 排序中,使用寬深度學習網路結合 lr,不僅僅使特徵工程的工作量工程量大為降低,而且排序模型的記憶能力和泛化能力比單獨使用 lr 提高不少。」從中我們可以看到,推薦系統的演算法支援使得紅豆 live 的業務能力顯著提高。
然而,沒有任何演算法是完美無缺的。「紅豆 live 推薦系統主要的缺陷是,推薦系統中的冷啟動問題。對於新使用者,我們無法獲取他們的行為日誌和 query 日誌。「而針對這個問題,他們有彌補的方法,」因為紅豆 live 使用者和微博使用者重合度為 90%,可以利用該使用者的微博興趣標籤,解決使用者的冷啟動問題。」胡南煒說道。
關鍵技術召回和排序的作用和策略
紅豆 live 推薦系統中的兩個關鍵技術分別是召回和排序,其中在召回層用到的策略,是基於 item 的協同過濾,基於使用者 query 的 ctr 進行召回,和基於用長短期興趣的進行召回。而在排序層,則使用 wide & deep 網路,主要基於召回層的 item 進行融合、排序,最終選出 top n 個 item 推薦使用者。
召回層的作用在於根據使用者的不同興趣,從海量 item 中選出數百個使用者感興趣的 item。而排序層的作用則是基於使用者的一些特徵,對召回層的 item 再次進行打分排序,更精準地選出使用者感興趣的 item。
具體工作流程
第一,對使用者的行為日誌進行利用 jstorm 實時收集,並定時更新基於 item 的協同過濾內容。
第二,對直播間內容進行利用 jstorm 實時收集,實時為直播間打上分類標籤、topic、主題詞等標籤,並定時更新使用者畫像內容。
第三,對使用者 query 日誌利用 jstorm 實時收集,定時計算使用者 query 的 ctr。
最後,當使用者進行重新整理時,利用召回策略進行召回,再根據排序策略選擇 top n 呈現給使用者。
ai 識別「****」內容準確率提高
「三俗」內容識別一直是正規內容平台嚴格把關的方面,ai 能夠在這一方面發揮更大的作用。紅豆 live 由於採用了可以提取更豐富特徵的新演算法,對"三俗"內容進行過濾,因此準確率相較傳統機器學習演算法有了很大提公升。為了保障使用者體驗,其針對「三俗」內容分別訓練模型以及使用敏感詞的策略,在對使用者進行推薦前,對推薦內容進行實時過濾。
過擬合問題是最大挑戰
而被問及紅豆 live 的推薦系統在開發應用過程中遇到的最大困難是什麼時,胡南煒表示,任何 ai 技術應用的過程中,神經網路的過擬合問題都是讓人頭疼的問題,紅豆 live 也不例外,在開發過程中遇到的最大挑戰就是它。而他們解決這個問題的思路主要有三點:新增 dropout 層、進行正則化,以及當 loss 和 acc 穩定即停止訓練,這或許對我們有所啟發。
對 ai 發展趨勢的**
而在 2018 年 ai 將有什麼樣的發展趨勢這一問題上,他認為 ai 技術的應用將更加垂直化,ai 技術深入到使用者日常生活的每乙個方面,比如語音直播。
胡南煒表示,非監督類學習將是紅豆 live 下一步的探索,「我們有這方面的摸索計畫,比如在沒有標註資料的前提下,我們通過聚類演算法將語音直播內容形成乙個個的簇,從而做一些粗粒度的隨機推薦。」
講師簡介
胡南煒,畢業於北京航空航天大學電腦科學和工程系,在這裡完成博士學業之後多年從事軟體工程研發和網際網路,個人技術專長為大資料、雲計算技術和機器學習。他於 2014 年加入微博,負責微博機器學習計算和服務平台開發。在此之前,曾經在 ibm、yahoo 等公司工作。
常用推薦演算法實現(包括召回和排序)
目前工業界常用的召回排序模型主要有 1 基於內容的召回 使用item之間的相似性來推薦與使用者喜歡的item相似的item。2 基於協同過濾的召回 協同過濾主要可以分為基於使用者的協同過濾 基於物品的協同過濾 基於模型的協同過濾 如矩陣分解als svd svd 等等 3 基於關聯規則召回 基於關聯...
推薦系統中評測指標準確率和召回率
這10個並不就是全部的,它的評測指標有很多,比如使用者滿意度 最重要的指標 準確度 覆蓋率 多樣性 新穎性 信任度 實時性 健壯性和商業目標。其中準確率和召回率是在 準確度裡面需要用上的概念,準確度可以分成評分 和topn推薦。topn 準確率 precision 召回率 recall 對使用者u推...
推薦系統中的EE和bandit演算法
經常聽身邊的人說起使用推薦系統的感受,某寶某東就是看什麼給推什麼 使用者對推薦系統產生厭倦 也有聽做推薦系統的同學抱怨推薦的冷啟動問題,如何去嘗試新使用者的興趣點,嘗試到什麼時候地步才算真正掌握了使用者的興趣,使用者的興趣發生改變如何靈活的調整推薦策略。這些,都與今天聊到的e e問題有關,而band...