IBM突破性分布式計算 搞定深度學習負載

2021-09-23 04:28:06 字數 2709 閱讀 3015

本文講的是ibm突破性分布式計算:搞定深度學習負載,

為什麼深度學習會是計算機的「殺手級應用」? ibm是怎麼找到分布式計算來加快大資料人工智慧工作負載處理速度的?

總的來說,這聽起來足夠簡單:你有一台大型快速伺服器在處理人工智慧相關的大資料工作負載。然後需求變了,更多資料需要新增進來才能在一定時限內完成任務。邏輯上講,你需要做的,就是新增更多的處理能力而已。

然而,就像流行表情包裡說的一樣:「臣妾做不到啊!」

沒錯,直到今天,新增更多的伺服器是解決不了這個問題的。迄今為止的深度學習分析系統,都只能執行在單台伺服器上;用例僅僅是不能通過新增更多伺服器來擴充套件而已,這背後有些深層次的原因。

但是,現在,這一切都成為了歷史。8月8日,ibm宣稱,已找到新的分布式深度學習軟體開發路線,不久之後深度學習負載分布式處理不再是夢。這很有可能是至少最近10年來,人工智慧計算領域裡跨越最大的一步。

聯網伺服器搞定ai任務聽起來簡單,但事實並非如此

僅僅能夠聯網一組伺服器使之協調工作解決單個問題,ibm research 就已然發現了讓大規模深度學習更為實際的里程碑:如ibm最初的結果中證明的,用數百萬張**、甚至醫學影像,以及通過增加速度和大幅提公升影象識別準確率,來訓練ai模型。

同樣是在8月8號,ibm發布了其 power ai 軟體貝塔版,供認知和ai開發者打造更準確的ai模型,發展更好的**。該軟體將有助於縮短ai模型訓練時間,可從數天乃至數週,縮短至數小時。

到底是什麼讓深度學習處理如此耗時?首先,資料量非常龐大,往往涉及很多gb或tb資料。其次,能夠梳理這些資訊的軟體現在才針對這類工作負載進行了優化。

很多人現在都沒搞清楚的一件事是,深度學習與機器學習、人工智慧和認知智慧型到底**不一樣?

深度學習是機器學習的乙個子集

ibm高效能計算與資料分析認知系統副總裁薩公尺特·古普塔稱:「深度學習被認為是機器學習的乙個子集,或者說一種特別的方法。」

我常舉的乙個深度學習的例子是:我們在教小孩認貓貓狗狗時,會給他們展示很多狗狗的,然後有一天小孩子就會說「狗」了。但是小孩子並沒有認清狗狗有4條腿和一條尾巴的事實,其他一些細節也沒認識到;小孩子就是在實際整體感知一條狗狗。這與傳統計算機模型那種「如果……否則……」的條件邏輯迥然不同。深度學習試圖模仿這種整體認知,所用方法就是所謂的神經網路。

深度學習的問題在於,計算量太過龐大,高通訊開銷一直是其最大的挑戰。

大多數深度學習框架可擴充套件到一台伺服器上的多個gpu,但不能延伸至多台帶gpu的伺服器。於是,我們的團隊編寫了軟體和演算法,自動化並優化了該超大複雜計算任務的平行計算,使之能跨數十台伺服器上的數百個gpu加速器並行執行。這很難!

ibm發現「理想擴充套件」

ibm research 提交了近乎理想的擴充套件方式。在64臺 ibm power 系統的256個gpu上部署的開源caffe深度學習框架中,其新分布式深度學習軟體,達到了歷史新低的通訊量,以及95%的擴充套件效率。

上乙個最佳擴充套件,是 facebook ai research 在caffe2上執行的訓練中展現出來的89%,且其通訊量更高。採用該軟體,ibm research 在超大資料集(750萬張影象)上訓練的神經網路,達到了33.8%的影象識別準確率新高。之前的記錄是微軟的29.8%。

ibm research 分布式深度學習**的技術預覽,可從 ibm powerai 4.0 的tensorflow版和caffe版獲取。

分析師怎麼說

moor insights & strategy 總裁兼首席分析師派翠克·摩爾海德稱:「這是過去6個月裡我所見過的深度學習行業較大突破之一。有趣的部分在於,這一突破來自ibm,而不是谷歌之類的web巨頭,意味著企業可以通過openpower硬體和powerai軟體在內部應用,甚或通過雲提供商nimbix來採用該技術。

最令人震驚的,是新增擴充套件節點時的近線性擴充套件率,效能在90%到95%之間。最簡化的看待方式,就是橫向擴充套件的ai vs. 我們今天大多數人用的傳統向上擴充套件。效能的提高是數量級的。

技術諮詢公司 enderle group 總裁羅博·恩德勒稱,ibm此次發布的重要性在於,你可以用硬體擴充套件深度學習操作的效能。深度學習操作上一直都有可用gpu數量上的限制,ibm有效去除了這一限制,讓公司企業可以通過購買硬體,來換取完成操作所需的時間。

這是巨大的一步,尤其是在安全和欺詐防護之類的領域,因為這些領域的系統訓練所需時長,往往是以天計,但破壞卻可在數分鐘內就達到百萬級。因此,你部署的解決方案,應能以更即時的方式,更合理地解決這一巨大的風險暴露面。

it行業分析公司pund-it首席分析師查爾斯·金稱,ibm的速度提公升十分驚人。之前的紀錄保持者微軟的系統在10天內完成了訓練,達到了29.8%的準確率。ibm的集群配合上該新的ddl庫,在7小時內就訓練完畢,準確率高達33.8%。

另外,ibm的ddl庫及api,任何使用該公司 power systems 和 powerai v4.0 以上版本的使用者均可採用。結合對caffe和 tensorflow ai 框架的支援,ibm計畫讓該ddl庫和api對torch和chainer開放。

「總之,通過大體上清除深度學習訓練瓶頸,斬落當前效能領跑者,ibm的新ddl庫和api應能使ai專案更具競爭力,更吸引公司企業和其他機構組織。」.

分布式計算

定義 研究如何把乙個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然後把這些部分分配給許多計算機進行處理,最後把這些計算結果綜合起來得到最終的結果。什麼是分布式系統 分布式系統 distributed system 是由多台計算機和通訊的軟體通過計算機網路連線組成 本地區域網或者廣域網 分布...

分布式計算0

分布式系統可以建立精確的數學模型,其上的演算法與性質都是可以證明的,這是最近看一本分布式演算法的專著的感受。其中在論及分布式系統的時間概念時,談到其邏輯時鐘是整個系統上的乙個序關係 這個序關係可以把系統中的事件序列對映到乙個自然數集合上 event 除因果事件外,則還有平行事件的存在。故這種對映關係...

分布式計算概述

分布式系統 在 網 絡 計 算 平台 上 開 發 部 署 管 理 和 維 護 以 資 源 共 享 和 協 同 工 作 為 主 要 應 用 目 標 的 分 布 式 應 用 系 統。分布式系統的主要特徵 包含任意個數的系統程序和使用者程序 體系結構模組化,它由數目可變的多個處理部件組成 通過共享通訊結構...