對於已有的開源的機器學習框架,很多都是單機環境下部署的,但是對於大公司層面的機器學習的應用需求,簡單的單機,分布式spark機器學習平台很難滿足公司的大資料應用需求,因為不僅要求具有正確性,還要求高效性和穩定性。
這裡面存在很多的問題,比如模型如何在多台機器上跑,引數如何分布在多台伺服器上,構成parameter server (google提出的),同樣的,這些引數如何時時的更新,學習,並且如何儲存中間結果,多台訓練worker時時的相互互動,實現同步或者非同步等問題。
想要把tensorflow,caffe,torch等非常好的機器學習,深度學習框架實現並行化,需要很大的投入。其中對於這些模型,很重要的部分就是引數的學習,在一定程度上,這些引數就表徵了整個模型,最終學習,訓練的結果就是編碼體現在這些引數中的。因此想要實現分布式的機器學習框架平台,很大程度需要實現分布式引數伺服器,有了分布式引數伺服器,便可以在此基礎上擴充套件機器學習平台,將單機版的機器學習模型轉換為分布式ps-機器學習模型。
在有了引數伺服器之後,便需要將模型分布式化,這裡主要修改i/o層和通訊層,這兩個模組必須要好好的研究,才能實現這個轉換工程。
大規模實時流處理平台架構 zz
接下來我們分享這個流分發網路中涉及到的實時流處理平台的架構。這裡我們先簡單的來看下這個實時流處理平台包含哪些內容。這是我們 直播雲平台 的框架圖,我們今天分享的內容主要集中於 儲存與回訪 轉碼和內容處理 以及 內容識別 平台的架構,同時它還包含實時轉儲存的能力,也就是圖中間的綠色部分所表示的模組。從...
大規模機器學習
如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...
大規模機器學習
如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...