mit研究員警告:深度學習已經接近計算極限
我們正在接近深度學習的計算極限。
根據麻省理工學院,mit-ibm watson ai實驗室,underwood國際學院和巴西利亞大學的研究人員的說法,他們在最近的一項研究中發現,深度學習的進展「非常依賴」計算能力的增長。但他們指出,持續不斷的進步將需要通過改變現有技術或通過尚未發現的新方法來「戲劇性地」更有效地使用深度學習方法。
「我們表明,深度學習不是偶然的計算代價,而是設計的代價。共同的靈活性使它能夠出色地建模各種現象,並且效能優於專家模型,這也使其在計算上的成本大大提高。」合著者寫道。「儘管如此,我們發現深度學習模型的實際計算負擔比(理論上的)下界更快地擴充套件,這表明可能有實質性的改進。」
深度學習是機器學習的子領域,涉及受大腦結構和功能啟發的演算法。這些演算法(稱為人工神經網路)由功能(神經元)組成,這些功能按層排列,將訊號傳輸到其他神經元。訊號是輸入到網路中的輸入資料的產物,它們從一層到另一層傳播並緩慢地「調諧」網路,實際上是在調整每個連線的突觸強度(權重)。網路最終通過從資料集中提取特徵並識別交叉樣本趨勢來學習進行**。
在給定的深度學習模型中,每個網路遍歷的計算,或單遍遍(即權重調整)所需的浮點運算數。
硬體負擔,或用於訓練模型的硬體的計算能力,計算方式為處理器數量乘以計算速率和時間。(研究人員承認,儘管這是一種不精確的計算方法,但在他們分析的**中,它的報告比其他基準要廣泛。)
合著者報告說,除從英語到德語的機器翻譯(使用的計算能力幾乎沒有變化)外,所有基準均具有「統計學上顯著性」的斜率和「強大的解釋能力」。物件檢測,命名實體識別和機器翻譯尤其顯示出硬體負擔的大幅增加,而結果的改善卻相對較小,在流行的開源imagenet基準測試中,計算能力可以解釋影象分類準確度的43%差異。
研究人員估計,三年的演算法改進相當於計算能力提高了10倍。他們寫道:「總體而言,我們的結果表明,在深度學習的許多領域中,訓練模型的進步取決於所使用的計算能力的大幅度提高。」, 「另一種可能性是,要改善演算法本身可能需要互補地提高計算能力。」
在研究過程中,研究人員還對**進行了推斷,以了解達到各種理論基準所需的計算能力以及相關的經濟和環境成本。即使是最樂觀的計算,要降低imagenet上的影象分類錯誤率,也需要進行10的 五次方以上的計算。
乙份synced報告也估計,華盛頓大學的grover假新聞檢測模型在大約兩周時間內的訓練費用為25,000美元。據報道,openai花費了高達1200萬美元來訓練其gpt-3 語言模型,而google估計花費了6,912美元來訓練 bert,這是一種雙向轉換器模型,可為11種自然語言處理任務重新定義最先進的技術。
在去年6月的麻薩諸塞州大學阿默斯特分校的另乙份報告中,得出的結論是,訓練和搜尋某種模型所需的電量大約排放了626,000磅的二氧化碳。這相當於美國普通汽車壽命排放的近五倍。
研究人員寫道:「我們預計目標所隱含的計算需求……硬體,環境和金錢成本將無法承受。」 「以一種經濟的方式實現這一目標將需要更高效的硬體,更高效的演算法或其他改進措施,以使淨影響如此之大。」
研究人員指出,在演算法級別進行深度學習改進已有歷史先例。他們指出了硬體加速器的出現,例如google的張量處理單元,現場可程式設計門陣列(fpga)和專用積體電路(asic),並試圖通過網路壓縮和加速技術來降低計算複雜性。他們還引用了神經體系結構搜尋和元學習,它們使用優化來查詢在一類問題上保持良好效能的體系結構,以此作為計算上有效的改進方法的途徑。
確實,一項openai 研究表明,自2023年以來,每16個月將ai模型訓練到imagenet影象分類中相同效能所需的計算量就減少了2倍。google的transformer架構超越了以前的seq2seq(也是由google開發的模型),在seq2seq推出三年後,計算量減少了61倍。deepmind的alphazero這個系統從零開始教自己如何掌握西洋棋,將棋和圍棋遊戲,而一年後,該系統所需的計算量就減少了八倍,以匹配該系統的前身alphagozero的改進版本。
「用於深度學習模型的計算能力的**式增長已經結束了「人工智慧冬天」,並為各種任務的計算機效能樹立了新的基準。但是,深度學習對計算能力的巨大需求限制了它可以以目前的形式提高效能的程度,特別是在硬體效能的提高放緩的時代。」 「這些計算限制的可能影響迫使……機器學習轉向比深度學習更高效的技術。」
MIT研究員使用無人機跟蹤倉庫庫存
由麻省理工學院的研究人員開發的新系統,可以通過使用無人機實現倉庫的自動跟蹤和監控庫存。此外,這個無人機還可以防止錯配,並幫助員工更快地找到一些特別的物品,提高工人們的工作效率 使得工人們能夠更加自由地管理和移動材料。根據報告的介紹,最重要的是小型的無人機可以安全飛行。因為它們在 數十公尺遠 外的庫存...
使用者研究員2
在產品的不同發展階段,產品相關人員關注的內容會不同,可以根據產品的發展階段來考慮用研專案的安排和規劃。產品處於初始階段的時候,產品使用體驗有哪些硬傷 哪些人在使用我們的產品 常常是小夥伴們比較關心的問題。產品經過幾輪迭代後,影響較大和容易修改的問題基本上都被解決了,產品需要面對的是 還有哪些東西可以...
高頻量化研究員
高頻量化研究員 基本資訊 職位類別 金融研究 工作地點 上海 稅前年薪 60萬 90萬 工作職責 1 日頻因子研究 c 研發平台下開發日頻alpha因子 2 高頻因子研究 c 研發平台下開發高頻alpha因子 3 日頻對沖模型研究 對因子庫中的日頻因子進行組合,並針對指數進行風控控制和優化選股 4 ...