深度學習在我們的日常生活中已經無處不在。深度學習模型現在可以識別影象,理解自然語言,玩遊戲,以及自動化系統決策(例如裝置放置和索引)。張量算符(tensor operators),如矩陣乘法和高維卷積,是深度學習模型的基本組成部分。
可擴充套件的學習系統依賴於手動優化的高效能張量操作庫,如cudnn。這些庫針對較窄範圍的硬體進行了優化。為了優化張量算符,程式設計師需要從邏輯上等價的許多實現中進行選擇,但由於執行緒,記憶體重用, pipelining和其他硬體因素的不同,效能上的差別很大。
支援多種硬體後端需要巨大的工程努力。即使在當前支援的硬體上,深度學習框架和模型的開發也從根本上受到庫中優化操作符設定的限制,阻止了諸如操作符熔合(operator fusion)之類的優化,從而產生不受支援的操作符。
針對這個問題,華盛頓大學計算機系博士生陳天奇、以及上海交通大學和復旦大學的研究團隊提出乙個基於學習的框架,以優化用於深度學習工作負載的張量程式( tensor programs)。
我們提出乙個基於學習的框架,以優化用於深度學習工作負載的張量程式( tensor programs)。矩陣乘法和高維卷積等張量算符( tensor operators)的高效實現是有效的深度學習系統的關鍵。然而,現有的系統依賴於手工優化的庫,如cudnn,這些庫只有很少的伺服器級gpu能很好地支援。對硬體有要求的操作庫的依賴限制了高階圖形優化的適用性,並且在部署到新的硬體目標時會產生巨大的工程成本。我們利用學習來消除這種工程負擔。我們學習了領域特定的統計成本模型,以指導在數十億可能的程式變體上搜尋張量算符的實現。我們通過跨工作負載的有效模型遷移來進一步加快搜尋速度。
實驗結果表明,我們的框架能夠為低功耗cpu,移動gpu和伺服器級gpu提供與最先進手工調優庫相媲美的效能。
學習優化張量程式問題的形式化方法
我們提出以下問題:我們是否可以通過學習來減輕這種工程負擔,並自動優化給定硬體平台的張量算符程式?本**為這個問題提供了肯定的答案。我們建立了統計成本模型來**給定的低階程式的程式執行時間。這些成本模型指導了對可能程式空間的探索。我們的成本模型使用可遷移的表示形式,可以在不同的工作負載之間進行泛化,以加速搜尋。這一工作的貢獻如下:
在實際的深度學習工作負載的實驗結果表明,我們的框架提供的端到端效能改進比現有框架好1.2倍至3.8倍。
討論和結論
我們提出了一種基於機器學習的框架來自動優化深度學習系統中張量算符的實現。我們的統計成本模型允許在工作負載之間進行有效的模型共享,並通過模型遷移加速優化過程。這個新方法的優秀實驗結果顯示了對深度學習部署的好處。
在我們的解決方案框架之外,這個新問題的具體特徵使它成為相關領域創新的乙個理想測試平台,如神經程式建模、貝葉斯優化、遷移學習和強化學習。
在系統方面,學習優化張量程式可以使更多的融合操作符、資料布局和資料型別跨不同的硬體後端。這些改進對於改進深度學習系統至關重要。我們將開放我們的實驗框架,以鼓勵在這些方向進行更多的研究。
原文發布時間為:2018-05-23
B站CEO陳睿 遊戲自研團隊規模已超千人
程式設計客棧 www.cppcns.com 8月20日訊息 日前b站發布了2021年第二季度財報。財報顯示,b程式設計客棧站二季度營收達44.9億元人民幣,其中遊戲業務收入為12.3億元,去年程式設計客棧同期為12.48億元。使用者數方面,嗶哩嗶哩平均每月活躍使用者達到2.371億,同比增長38 移...
中國速度!陳薇院士團隊新冠疫苗海外獲批臨床試驗
據 報道,人程式設計客棧民英雄 國家榮譽稱號獲得者 中國工程院院士 軍事科學院軍事醫學研究院研究員陳薇院士領銜,軍事科學院研製團隊研發的重組新冠疫苗,已經獲得俄羅斯 巴基斯坦批准,開展iii期臨床試驗。陳薇團隊重組新冠疫苗的進展堪稱典型的 中國速度 3月16日啟動i期臨床試驗,是全球首個進入臨床研究...