CCF通訊閱讀 大規模機器學習網路研究

2021-08-30 17:44:34 字數 1141 閱讀 2081

network by machine learning,即「利用機器學習技術進行網路系統的優化」。

network for machine learning, 即「利用網路領域的新技術加速機器學習的模型訓練」。

前者專注於機器學習知識,對於網路系統知識依賴較少,一般需要首先將網路中的問題和場景進行抽象,然後套用合適的機器學習模型進行求解。後者需要研究者不僅要了解機器學習的領域知識,還要對網路系統有深入理解。

本文主要專注於後者的介紹。

基於引數伺服器(parameter server, ps)的架構是一種中心化的架構設計。

基於mesh的架構是一種去中心化的架構設計。

基於ring的架構同樣是一種去中心化的架構設計。

大規模分布式機器學習系統需要協調各個節點之間的計算與通訊。它的主要工作包括引數計算和資料同步,兩個步驟迭代交錯進行。

整體同步並行(bulk synchronous parallel, bsp),

非同步並行(asynchronous parallel, asp),

延時同步並行(stale synchronous parallel, ssp)。

bsp是目前最常用的資料同步模式。在bsp模式下,每個節點在完成本地計算後需要對引數進行同步,未完成引數同步之前,任何節點都不允許開始新一輪迭代。

缺點:最快的節點和最慢的節點之間相差太多,導致整體速度減慢

asp模式考慮到了straggler問題的負面影響,因此採用最大能力交付(best-effort)的機制進行資料同步。

ssp模式綜合考慮了bsp模式和asp模式的優劣,在迭代速度和質量之間進行了折中。

本文僅限於學習筆記記錄,不用於任何商業用途。參考ccf通訊:

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...

大規模機器學習

如果我們有乙個低方差的模型,增加資料集的規模可以幫助你獲得更好的結果。我們應 該怎樣應對乙個有 100 萬條記錄的訓練集?以線性回歸模型為例,每一次梯度下降迭代,我們都需要計算訓練集的誤差的平方和,如果我們的學習演算法需要有 20 次迭代,這便已經是非常大的計算代價。首先應該做的事是去檢查乙個這麼大...

機器學習 大規模機器學習

當資料有大量的資料,比如1億以上的時候,如果想擬合乙個線性回歸或者邏輯回歸時,梯度下降演算法的計算量將是非常龐大的。預檢查 為什麼不用1000個樣本,而需要用11億個?遇到高偏差問題時候,選擇合適大小的資料集即可,再增加資料集並不會改善,處理方式為尋找新的模型。如果是低方差的模型,增加資料集的規模可...