微軟亞洲研究院
2023年5月22日,在微軟舉辦的「新一代人工智慧開放科研教育平台暨中國高校人工智慧科研教育高峰論壇」上,微軟亞洲研究院宣布,攜手北京大學、中國科學技術大學、西安交通大學和浙江大學四所國內頂尖高校共建新一代人工智慧開放科研教育平台,以推動中國人工智慧領域科研與教育事業的發展。作為由微軟亞洲研究院為該平台提供的三大關鍵技術之一,open platform for ai(openpai)也備受矚目。
事實上,隨著人工智慧技術的快速發展,各種深度學習框架層出不窮,為了提高效率,更好地讓人工智慧快速落地,很多企業都很關注深度學習訓練的平台化問題。例如,如何提公升gpu等硬體資源的利用率?如何節省硬體投入成本?如何支援演算法工程師更方便的應用各類深度學習技術,從繁雜的環境運維等工作中解脫出來?等等。
為了解決這些問題,微軟亞洲研究院和微軟(亞洲)網際網路工程院基於各自的特長,聯合研發、建立了openpai,希望為深度學習提供乙個深度定製和優化的人工智慧集群管理平台,讓人工智慧堆疊變得簡單、快速、可擴充套件。
● 為深度學習量身定做,可擴充套件支撐更多ai和大資料框架
通過創新的pai執行環境支援,幾乎所有深度學習框架如cntk、tensorflow、pytorch等無需修改即可執行;其基於docker的架構則讓使用者可以方便地擴充套件更多ai與大資料框架。
● 容器與微服務化,讓ai流水線實現devops
openpai 100%基於微服務架構,讓ai平台以及開發便於實現devops的開發運維模式。
● 支援gpu多租,可統籌集群資源排程與服務管理能力
在深度學習負載下,gpu逐漸成為資源排程的一等公民,openpai提供了針對gpu優化的排程演算法,豐富的埠管理,支援virtual cluster多租機制,可通過launcher server為服務作業的執行保駕護航。
● 提供豐富的運營、監控、除錯功能,降低運維複雜度
pai為運營人員提供了硬體、服務、作業的多級監控,同時開發者還可以通過日誌、ssh等方便除錯作業。
● 相容ai開發工具生態
平台實現了與visual studio tools for ai等開發工具的深度整合,使用者可以一站式進行ai開發。
openpai是由微軟亞洲研究院和微軟(亞洲)網際網路工程院聯合研發的,支援多種深度學習、機器學習及大資料任務,可提供大規模gpu集群排程、集群監控、任務監控、分布式儲存等功能,且使用者介面友好,易於操作。
openpai的架構如下圖所示,使用者通過web portal呼叫rest server的api提交作業(job)和監控集群,其它第三方工具也可通過該api進行任務管理。隨後rest server與launcher互動,以執行各種作業,再由launcher server處理作業請求並將其提交至hadoop yarn進行資源分配與排程。可以看到,openpai給yarn新增了gpu支援,使其能將gpu作為可計算資源排程,助力深度學習。其中,yarn負責作業的管理,其它靜態資源(下圖藍色方框所示)則由kubernetes進行管理。
openpai架構
openpai完全基於微服務架構,所有的openpai服務和ai job均在容器中執行,這樣的設計讓openpai的部署更加簡單,無論是在ubuntu裸機集群還是在雲伺服器上,僅需執行幾個指令碼即可完成部署。這同時也使其能夠支援多種不同型別的ai任務,如cntk、tensorflow、pytorch等不同的深度學習框架。此外,使用者通過自定義job容器即可支援新的深度學習框架和其他機器學習、大資料等ai任務,具有很強的擴充套件性。
不僅如此,openpai還實現了與visual studio的整合。visual studio tools for ai是微軟visual studio 2017 ide的擴充套件,使用者在visual studio中就可以開發、除錯和部署深度學習和ai解決方案。整合後,使用者在visual studio中除錯好的模型可便捷地部署到openpai集群中。
任務部署成功後visual studio中的任務列表概覽
openpai提供了友好的使用者介面,操作簡單,便於使用者進行集群監控、任務提交等。例如,主介面上顯示了集群的gpu利用率、節點總數、cpu利用率、網路狀況等。當某項資料異常時,openpai將啟動報警機制通知使用者,並在ui上以顏色改變的形式進行提醒(如變成紅色等)。
openpai主介面
集群job概覽,點選job名稱可以檢視詳細資訊及日誌資訊
job執行狀態頁顯示容器的ip位址、埠和gpu位置,該頁面還提供遠端ssh登入容器的資訊
集群中機器執行狀況概覽,不同顏色展現了不同的忙閒程度
集群中每台機器上的service執行狀況
openpai部署
平台部署主要分為以下幾個步驟:
1. 編譯支援gpu排程的hadoop ai容器,詳見
2. 部署kubernetes以及系統服務(如drivers、zookeeper、rest server等)。詳見
3. 訪問web portal進行任務提交和集群管理。
提交深度學習job示例
1. 將你的資料和**上傳至hdfs:
如用hdfs命令行將資料上傳至hdfs://host:port/path/tensorflow-distributed-jobguid/data
2. 準備job配置檔案:(詳見
3. 瀏覽web portal,點選"submit job"上傳配置檔案,即可提交你的job。
人工智慧若大規模落地,未來英語老師會失業嗎?
現如今,ai 人工智慧 已被公認為it產業的下乙個風口,不僅僅因為master和alphago戰勝了幾位世界頂尖的棋手,更重要的是,在諸多領域,未來人工智慧將扮演非常重要的角色,不過從目前來看,人工智慧應用範圍還相當侷限,成熟產品也不多。在這種情況下,人工智慧未來應當如何布局,才能從理論走向實踐呢?...
人工智慧簡史 人工智慧簡史
人工智慧簡史 在人工智慧的早期,計算機科學家試圖在計算機中重建人類思維的各個方面。這就是科幻 中的智力型別,即或多或少像我們一樣思考的機器。毫無疑問,這種型別的智慧型稱為可理解性。具有可理解性的計算機可用於探索我們如何推理,學習,判斷,感知和執行腦力活動。可懂度的早期研究集中於在計算機中對現實世界和...
人工智慧基礎 什麼是人工智慧
人工智慧是一門研究如何構造智慧型機器 智慧型計算機 或智慧型系統,使它們能夠模擬 延伸和拓展人類智慧型的學科。個人理解就是 研究人的智慧型,並且把人的智慧型放到機器上面,代替人思考。人工智慧發展簡史 孕育階段 1.亞里斯多德三段論 2.英國哲學家培根 知識就是力量。3.萊布尼茨 建立一種通用的符號語...