阿里雲機器學習PAI 提高資料的運營效率

2021-08-20 23:00:30 字數 1153 閱讀 2417

摘要: 2018雲棲大會上海峰會,阿里雲機器學習高階產品專家劉吉哲對阿里雲機器學習pai 服務與案例進行了講述,機器學習pai是阿里的乙個計算平台,通過對底層的分布式演算法封裝,提供拖拉拽的視覺化操作環境。讓資料探勘的建立過程像搭積木一樣簡單。

計算和儲存是做人工智慧的兩個必備條件,計算和儲存是整個實現過程成本最高的。機器學習還需要大量的人才,這些人才必須會資訊理論、微積分、矩陣論、程式設計、概率論等方面的知識。同時機器學習是乙個工程,整個流程需要對資料進行預處理,對特徵進行提取、還需要用演算法對模型進行訓練。

如上圖所示阿里雲機器學習,阿里雲ai平台借用阿里現有的高效能的雲計算降低儲存和計算的能力,應用阿里現有的優化之後的演算法和框架,以工具打包的形式運用到產品中可降低使用者使用機器學習的門檻。

機器學習的流程中有20%進行資料處理,15%進行樣本生成,5%用作模型評估,15%進行特徵提取,40%用來模型訓練,5%進行模型應用。如何將整個的流程串聯在一起,這就需要機器學習pai的一些功能。第乙個是整體的架構,借助阿里雲底層的mac層提供cpu/gpu的計算能力,在上一層框架上抽象出mpa,再往上面一層有封裝好的演算法,分類演算法、回歸演算法和序列演算法等。最上面一層是使用者用來開發自己的一些應用,如天氣、交通、銀行等。這個平台提供了大量的演算法,有資料處理、特徵工程、統計分析,還有一些常用的機器學習演算法和一些深度學習框架。同時還提供了一些視覺化實驗環境,因為實驗過程是乙個流程,提供了視覺化實驗環境就可以把整個流程展示出來。我們只要把整個過程的資料,演算法、評估、**相關的一些元件設定一些引數,整個流程就可以跑起來。

通訊效能優化是底層grpc handler採用多執行緒並行處理。如上圖所示藍色是多執行緒通訊,橙色是最原始的開源通訊。從上面的資料可以看到從64卡變到128卡時,橙色的數量是在降低,而多執行緒的通訊藍色是在增加的。從圖中還可以看出,使用多執行緒的並行處理64卡會提公升1倍,128卡提公升了3倍多。所以卡數越多,效能的提公升越高。其中乙個案例是**的審核。如果賣家發布一些色情類的,後台會自動識別這些。剛開始使用的是單機兩卡,整個模型訓練下來需要用288個小時。後來用了阿里的框架,在分布式下用16機32卡進行訓練,只需要20小時就能完成訓練,比單機快了14倍。

阿里雲 第1章 機器學習介紹

課時2.雲計算大資料及人工智慧 雲計算 是一種按使用量付費的模式,這種模式提供可用的 便捷的 按需的網路訪問,進入可配置的計算資源共享池 資源包括網路,伺服器,儲存,應用軟體,服務 這些資源能夠被快速提供,只需投入很少的管理工作,或與服務 商進行很少的互動。大資料 無法在可承受的時間範圍內用常規軟體...

阿里雲資料湖的型別轉換

data lake analytics會嘗試隱式轉換數值型別和字元型別值到正確的型別,但是不會在數值型別和字元型別之間自動轉換。例如,查詢返回的長整型資料不會自動轉變為你想要的varchar型別。轉換函式 cast value astype type顯式把value轉換到type型別。可用於把字元型...

阿里雲機器學習怎麼玩?這本新手入門指南揭秘了!

想知道我是怎樣免費在阿里雲上玩機器學習的嗎?不慌,這就告訴你答案 它來了 阿里雲向個人免費開放雲端深度學習開發環境dsw datascienceworkshop 還有免費gpu資源可以使用,實驗的資料還會免費儲存30天!更有新手玩法指南帶你入坑不迷路!阿里雲機器學習pai dsw入門指南 從新手攻略...