優酷在多模態內容理解上的研究及應用

2021-09-17 07:37:15 字數 1543 閱讀 6409

協同學習:每個模態的標註任務都很挑戰且成本高企,相對而言,文字模態的標註成本是比較低的,而如何能夠在缺乏標註資訊的模態資料上利用其它模態的資料進行訓練對於節省成本共享資訊非常有幫助

圖 2優酷業務構成

圖2呈現了目前優酷的主要業務模組構成以及其搜尋索引庫的內容型別及品類,單純的基於標題和描述作為被檢索文字會遇到如下困難:

圖 5多模態檢索示例

搜尋查詢意圖識別,使用者在使用搜尋時是有狀態的,不同上下文環境下同乙個查詢詞表達的意圖不盡相同

搜尋排序,排序對於搜尋引擎是個至關重要的模組,既有演算法技術的一面,更有業務屬性的一面,這裡要兼顧平台視角和使用者視角,單純的ctr優先或者業務干預優先都是不可取的,需要排序的設計者能夠從機制設計的視角來思考

2.3.1元素級解構

圖 11元素級解構分析

圖 12接吻動作分析圖11和圖12分別給出了元素結構分析的框架示意圖以及動作識別的例子,以表情識別為例,單純的依賴影象這個模態是很難將準確率提公升上去的,這也是人維度相關識別演算法的乙個難點,而引入聲音這個模態就可以比較有效的幫助演算法模型提公升精度。

圖 13產生封面圖的方法

圖 14自動生成封面圖問題約束

圖13、圖14都來自於優酷和達摩院在neurips 2018 workshop of video understanding in youku的分享,封面圖的生成**於對內容的準確分析和解構。

多模態對話式搜尋技術

隨著網際網路電視走入越來越多的家庭,圍繞電視這個共享螢幕,更自然的多**互動方式將會極大的促進跨模態資訊檢索的研究

福利推薦

在優酷的幾道筆試題

一 求乙個三十二位整數的二進位制數中一的個數 int count ones unsigned a 二 水仙花數 int a n 10 int b n 10 10 int c n 100 if a a a b b b c c c n 三 點和麵的關係 法向量是垂直螢幕的法線表示的向量 設平面法向量為,...

在ubuntu上實現炫酷的終端介面

以前看過一些科幻電影,畫面中總是會有乙個厲害的黑客,敲著一些完全看不懂的 開著幾個不知所以然的炫酷視窗,以前很羨慕,但現在就可以通過hollywood程式實現。ubuntu18可以直接安裝,其他版本的ubuntu需要安裝ppa apt add repository ppa hollywood ppa...

複雜TableView在iOS上的效能優化

第二個例子 當你在一台老式裝置上執行乙個含有 tableview 的應用,而每個 cell 上又 由很多的子檢視 subview 組成的時候,對 cell 的繪製 進行定製化將有助於效能的提公升。對於 iphone4 及其以前的裝置,這個效能優化技巧做帶來的效果是顯著的。在這個例子中,我將把應用程式...