阿里文娛永叔 利器or成本損耗?演算法不是黑匣子

2021-08-29 04:48:33 字數 3409 閱讀 1180

作為實現人工智慧的一大途徑,機器學習與業務的深度結合一直是技術愛好者們關注的方向,會間,我們邀請到阿里商業機器智慧型演算法團隊及優酷演算法技術團隊負責人王曉博(永叔),圍繞機器學習的落地應用實踐展開問答,以下為正文:

永叔:目前我們(優酷)的研究重點包括:

csdn:是什麼契機讓您選擇了大規模分布式機器學習這一研究分支?

csdn:在您看來,機器學習在人工智慧的發展中扮演著怎樣的角色?深度學習對機器學習的意義?

永叔:人工智慧領域其實很寬,從最早大家提及的人工智慧,到後來逐漸代之以機器智慧型,機器學習為人工智慧提供了一條可以實際應用落地的道路。因為過去談到人工智慧就是下棋、語音識別等,而從80年代末90年代初,統計機器學習逐漸佔據壟斷地位之後,該技術可以與任何行業進行深度結合。無論資料量多少,機器學習技術都能幫助提效,且具備一定的預判性。

深度學習本身並不是乙個很新的概念,也就是六七十年代就曾提出的人工神經網路(ann),其本質相當於把所有事情變成乙個學習非常複雜的非線性函式,模型的引數數量代表了模型本身的建模表達能力,比如學習乙個簡單的線性函式,還是乙個超越函式,甚至乙個非常複雜的邏輯函式,深度學習相當於提供了乙個可以規模化的方法,每個學習單元就像是仿生學裡的神經元,都是乙個非常簡單的sigmoid邏輯斯蒂回歸的二分類分類器。它和boosting比較像,由許多弱分類器組成強分類器,只不過用各種各樣不同的網路結構將其堆疊起來,能夠形成乙個比較複雜的具備較強表達能力的學習模型。

深度學習起初在影象和語音這兩個領域應用得比較好,而最近三年,其在自然語言處理中逐漸形成了乙個各方面開花的趨勢。深度學習為機器學習提供了乙個子集,但是這個子集利用現在強大的硬體資源能夠把問題本身的建模模型表達能力推到乙個新高度,一些過去無法學到的東西現在都可以通過這種技術完成學習。

csdn:您如何看待谷歌的automl?

永叔:我們之前談到的小樣本學習就與此相關,我們團隊花了約一年的時間打造了阿里支援千億特徵的海量機器學習平台xps (extreme parameter sever) 。事實上,在這類機器學習平台上,大家都一窩蜂地去用tensorflow,但tensorflow在企業中的效能卻很有限,對外開源的版本在runtime優化上有不小的問題,很難解決萬億樣本、千億特徵的實際問題,因此各大公司都會有這種自己定製的面向海量資料場景特定優化的訓練系統。這裡涉及兩**寶,一是調網路結構,二是調引數。每一層有多少個啟用神經元,學習的各維度(dimension),feature dimension的size是多少,網路結構長什麼樣子,是用卷積還是殘差層……大家會變換各種不同的組合,如果是rnn這樣的反饋式網路的話,什麼時候引入反饋邊,什麼時候在網路區域性引入多維的反饋層——網路結構設計會越來越複雜,但好處是百花齊放,大家在乙個巨大的空間內展開探索,所以現在深度學習的文章是最容易灌水的,但這些在未來肯定會被終結,這就是automl在做的事情。

例如很多人說學特徵,是學1024位,還是512位,還是2048位?到底學多少維度?所有輸入層特徵都是乙個緯,這個空間非常大。假設有一千萬個特徵,每個都是1024位,不同的特徵在樣本中的覆蓋率不同,其本身的表徵不一樣,以男女性別特徵和影象特徵為例,兩個人表達的資訊量完全不一樣,因為影象的空間非常大,乙個512×512的影象,把rgba中的alpha通道去掉,rgb這三個通道中,每個通道都是256的三次方,再乘上512的平方,這是乙個巨大的空間。但是男女只有兩個值,如果也用乙個1024位的特徵去學,看上去是對齊了,但實際它的覆蓋率又很高,因此特徵學習很容易出現問題,所以現在的automl這要解決的幾類問題包括:

① 網路結構的動態設計;

② feature embedding size的動態學習;

③ 網路模型中需要根據資料做動態調參,包括每一層需要多少個神經元,需要多少維度的引數表達。對於過去需要耗費很多人力的負責人肉調參、調結構,automl這個框架為未來提供了乙個解決思路;

④ 網路壓縮,因為現在越來越多的模型會放在手機端上執行,像是最新推出的a12處理器裡就有專門的神經網路處理單元(npu),它就是為了在手機上做加速。網路壓縮也要去調大量的引數,而網路壓縮的核心任務就是將現有的學習精度比較高的大模型,壓縮到乙個小的尺寸,像是將乙個幾個g的模型壓縮到幾十兆。例如**的影象和美實驗室正在做的ocr光學字元識別模型,我們可以把通用的幾十兆的模型壓到幾兆,精度只有很小的損失。

這些都是automl未來的發展方向。人類由懶惰促進技術進步,但凡是覺得很複雜瑣碎的問題,最終都會誕生一些相應的技術予以解決。

csdn:如何利用遷移學習解決了手淘詳情頁「看了又看」的技術侷限?

永叔:詳情頁的「看了又看」可以說是**推薦中最古老的場景了,目前的確面臨諸多瓶頸,其中的一大困境在於,此前我們將詳情頁歸入商家私域,交由商家自己控制,其中有兩個約束,一是同店,二是類似商品,但對於部分商家而言,其侯選集會非常小,從而面臨無貨可推的問題。為此,我們推出了乙個模組叫做「鄰家好店」,也就是說可以形成乙個商家聯盟,比如某個商家是賣數碼3c的,其與服飾商家沒有競爭,就可以按照自主意願形成的聯盟,從而我們的推薦商品的候選空間就會擴大,這一模組的核心是提公升每乙個userview的價值。此外,遷移學習在這方面也有其發揮的餘地,我們可以將使用者在服飾領域的行為遷移應用到數碼3c中去,包括使用者的分享、購物衝動等特徵和偏好都可以進行遷移。

永叔:近年來,計算機行業中的各個工種都在面臨這樣的問題。事實上,top級的人才永遠不會飽和,而現在趨於飽和的往往是工業化生產的ai人才。現在一些高校從本科起就在做人工智慧學院,例如由周志華老師擔任院長的南京大學ai人工智慧學院,他們的培養模式是每週都有一天讓學生到南京當地的研發中心實踐,採用純粹面向應用的培養體系。目前ai領域飽和的就是只會調包調參的工程師,未來趨勢也只會愈加飽和。那麼什麼樣的人競爭力會越來越強?主要有兩類:

第二類稀缺人才是與業務相結合的資深演算法工程師,這一類則與經驗密切相關,比如說其具備將業務問題轉變成領域技術問題的能力,這是個翻譯建模的過程。這項能力不僅要對技術有深厚的理解,也要對業務有很強的把控,同時又能夠通過架橋的能力將業務問題發現並定義出來,繼而建模成技術問題加以解決。這一系列能力如果沒有五年以上一線摸爬滾打的經驗是完全不可能掌握的,而且過程中必然耗費了大量的成本,因為這些寶貴經驗的獲取,首先必然需要企業方面給予足夠的授權和授信,無疑是「拿錢堆出來的」實踐經驗,有點類似於飛行員的培養。

採訪最後,永叔特別指出了乙個當下比較突出的問題,即企業leader們對於演算法能夠做什麼應用存在一些誤解,他們往往認為演算法是個黑盒子,或是機器貓的袋子,什麼東西講不清楚都讓演算法去算一下,這個問題現在是比較突出的,很多人就是,沒有去開啟演算法的這個黑盒子。事實上,目前我們對於資料比較充分的領域,演算法的發揮空間的確比較大,但對於連標註資料都很模糊的地方,即使把演算法丟進去能去解決的問題也比較少,演算法使用在團隊中存在很大的偏差,所以演算法如果用得好就會是一把利器,用不好就將耗費巨大的成本,還沒有收益。因此企業leader需要提公升自己的知識結構和體系修養,了解這個與業務緊密結合的專業工種,清楚演算法可以應用到什麼地方、什麼環境。

從優酷到阿里文娛,大麥終於「轉正」了?

在中國,我的附庸的附庸,還是我的附庸,拿來吧你 據天眼查顯示,近日,北京大麥文化傳播 發生工商變更,優酷資訊科技 北京 退出其100 股份,新增阿里巴巴文化娛樂 為全資控股股東。眾所周知,優酷是阿里文娛旗下的全資子公司,而優酷此前掌握大麥100 的股權,可以說阿里文娛本身就對大麥有很強的話語權。但現...

阿里否認蔣凡調任阿里大文娛集團 系謠言

程式設計客棧 www.cppcns.com 4月20日 訊息 昨日,有阿里員工在脈脈上發文稱 蔣凡將從淘系調任大文娛總裁 對此,阿里巴巴方面回應稱,系謠言。17 日,peznslrb蔣凡夫人微博博主 花花董花花 發文警告張大奕稱 再來招惹我老公我就不客氣了,老娘也不是好惹的。望自重,好自為之。面對 ...

阿里遊戲公升級為獨立事業群 與阿里大文娛平行

程式設計客棧 www.cppcns.com 程式設計客棧 9月18日 訊息 據晚sqfpbwxy點latepost訊息,阿里的遊戲業務所屬的互動娛樂事業部 靈犀互娛 將整體公升級成為獨立事業群,與阿里大文娛平行。隨後,阿里遊戲方面證實了這一訊息,並表示高德集團董事長俞永福將分管靈犀互娛業務,此次公升...