訓練過程 GPU訓練

2021-09-02 17:15:07 字數 786 閱讀 3722

為什麼y2b的8m,8張普通tt為啥要跑幾個月?

因為gpu其實有60%的時間都是在等待資料填充完成,簡直蠢。

1)換個固態硬碟試試?

沒用。問題出在系統匯流排上,一幀的資料量入視訊記憶體後有1.58g

當前最優的分布式訓練方式是通過引數伺服器(parameter server)執行的同步隨機梯度下降演算法(sgd)。

這是一種簡單的分布式演算法,其中存在一組節點,每個節點都擁有經過訓練的神經網路的乙個版本。這些節點通過乙個伺服器共享梯度和權重等資訊。當試圖擴充套件節點數量時,問題出現了。考慮到如今的問題涉及的巨大維度,當擴充套件節點數量(到什麼級別)時,節點將不得不交流大量的資訊。

目前的gpu特別適合跨gpu並行化,因為它們能夠直接從另乙個gpu的記憶體中讀出和寫入,不需要通過主機記憶體。

一般有兩種方法,一種是常用的資料並行,另一種是模型並行。

1)模型並行指的是將乙個完整的網路切分成不同塊放在不同gpu上執行,每個gpu可能只處理某一張圖的四分之一。

採用模型並行很大程度上是因為視訊記憶體不夠放不下整個網路的資料,而現在gpu的功能效能提高,乙個gpu已經能夠很好的解決視訊記憶體不夠的問題,再加上模型並行會有額外的通訊開銷,因此開源框架採用了資料並行,用來提高並行度。

我們採用的並行方案基本上是在每個gpu中放置一半核(或神經元),

乙個額外的技巧:gpu間的通訊只在某些層進行。

這就是說,例如,第3層的核需要從第2層中所有核對映輸入。然而,第4層的核只需要從第3層中位於同一gpu的那些核對映輸入。選擇連線模式是乙個交叉驗證的問題,但是這讓我們可以精確地調整通訊量,直到它的計算量在可接受的部分。

Adaboost 訓練過程

每個haar特徵對應看乙個弱分類器,但並不是任伺乙個haar特徵都能較好的描述人臉灰度分布的某一特點,如何從大量的haar特徵中挑選出最優的haar特徵並製作成分類器用於人臉檢測,這是adaboost演算法訓練過程所要解決的關鍵問題。paul viola和michael jones於2001年將ad...

Q learning訓練過程

下面的偽 說明了我們如何訓練,來得到乙個盡量完美的q 初始化 q while q 未收斂 初始化小鳥的位置s,開始新一輪遊戲 while s 死亡狀態 使用策略 獲得動作a s 使用動作a進行遊戲,獲得小鳥的新位置s 與獎勵r s,a q s,a 1 q s,a r s,a max q s a 更新...

Caffe訓練過程

1.caffe入門學習 筆記 1 直接訓練法 usr bin env sh tools cafferead build tools tools caffe train solver gender solver.prorotxt gpu all 加入 gpu 選項 gpu 可以選擇gpu的id號,如果...