分布式機器學習第3章 分布式機器學習框架

2021-10-24 12:31:40 字數 1978 閱讀 5627

q:需要使用到分布式機器學習有哪三種情形?

q:對於計算量太大時的分布式機器學習解決辦法:

q:對於訓練資料太多時的分布式機器學習解決辦法:

q:對於模型規模太大時的分布式機器學習解決辦法:

q:目前分布式機器學習領域的主要矛盾是?

q:分布式機器學習的主要組成模組有哪四個?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的兩種做法是什麼?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的隨機取樣方法是怎麼做的?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的隨機取樣方法的目的是什麼?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的隨機取樣方法的兩個弊端是什麼?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的置亂切分方法是怎麼做的?

q:分布式機器學習的資料劃分中,對訓練樣本進行劃分的置亂切分方法的目的是什麼?

q:分布式機器學習的資料劃分中,對特徵維度的劃分是怎樣的?

q:分布式機器學習的模型劃分做法是怎樣的?

q:分布式機器學習的對線性模型進行劃分的結構特點是什麼?

q:分布式機器學習的對深層神經網路進行模型劃分的3種方式是什麼?

q:分布式機器學習對深層神經網路進行橫向的模型劃分的優缺點是什麼?

q:分布式機器學習對深層神經網路進行縱向的模型劃分的優缺點是什麼?

缺點:各子模型之間的依賴關係會更加複雜,實現難度更大,並且通訊代價較高

q:神經網路中的骨架網路是什麼?

q:分布式機器學習對深層神經網路進行隨機的模型劃分是怎麼做的?

q:分布式機器學習的通訊模組的通訊內容有哪三種?

q:分布式機器學習的通訊模組的有哪三種通訊拓撲結構?

q:mapreduce中的map和reduce的作用是什麼?

q:迭代式的mapreduce的實現方式及優點?

q:迭代式的mapreduce的兩個弊端是什麼?

2.需要對已有的單機優化演算法進行較大的改動,才能完全符合map和reduce的程式設計介面

q:目前較廣泛應用的迭代式mapreduce系統有哪3個?

q:基於引數伺服器的通訊拓撲是怎樣的?

q:基於引數伺服器的通訊拓撲的好處有哪兩個?

q:目前影響力較大的引數伺服器系統有哪3個?

q:基於資料流的通訊拓撲是怎樣的?

q:基於資料流的通訊拓撲中的資料流系統中,每個節點有哪兩個通訊通道?

q:基於資料流的通訊拓撲中的資料流系統中,計算流的作用是什麼?

q:基於資料流的通訊拓撲中的資料流系統中,控制訊息流的作用是什麼?

q:目前影響力較大的基於資料流的系統是什麼?

q:同步通訊方式盛行的原因是什麼?

q:基於同步通訊的演算法有哪些?

q:通訊的步調中同步通訊方式的侷限性有哪兩個?

q:通訊的步調中的非同步通訊是怎麼做的?

q:有鎖的非同步通訊是怎樣的?

q:無鎖的非同步通訊是怎樣的?

q:目前基於非同步通訊的演算法有哪些?

q:非同步通訊的"延遲"表現和原因是什麼?

q:對非同步通訊的延遲問題的解決方法有哪些?

q:半同步(ssp)的基本思想是什麼?

q:混合同步方法是什麼?

q:在當前的引數空間下儘量減少要傳送的資料量的方法有哪些?

q:模型聚合時是否所有的子模型都需要被聚合,理由是什麼?

q:引數伺服器將聚合出來的全域性模型推送回每個工作節點時,工作節點的兩種做法是什麼?

q:三種典型分布式機器學習系統的執行效率比較:迭代式mapreduce的spark mllib、引數伺服器的multiverso、資料流的tensorflow

q:三種典型分布式機器學習系統的處理的任務比較:迭代式mapreduce的spark mllib、引數伺服器的multiverso、資料流的tensorflow

q:三種典型分布式機器學習系統的使用者使用比較:迭代式mapreduce的spark mllib、引數伺服器的multiverso、資料流的tensorflow

分布式機器學習筆記3

分布式機器學習筆記 基本概述 1 機器學習的優化框架 正則化經驗風險最小化 模型在訓練資料上的平均損失函式值盡可能小 同時對模型複雜度進行懲罰 優化演算法的收斂速率 有效的優化演算法 隨著迭代的進行使輸出模型越來越接近於最優模型 收斂性 e t 趨近於0 收斂速率 一般使用log e t 的衰減速率...

分布式機器學習dask

分布式機器學習 dask是乙個資料分析的平行計算的框架。pip安裝 pip install dask compete install everything pip install dask install only core cluster 部署 安裝dask 1.2.2 conda install...

分布式機器學習主要筆記

mahout是hadoop的乙個機器學習庫,主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾 使用者建議 聚類和分類。mllib 執行在s...