機器學習 多層感知機

2021-10-04 16:40:49 字數 984 閱讀 1484

【單層感知機】

但是單層感知機無法解決線性不可分的問題,要想解決線性不可分的問題,需要用多層感知機。

【多層感知機】

通用近似定理:如果乙個多層感知機具有線性輸出層和至少一層隱藏層,只要給予其足量的隱層神經元,它可以以任意精度近似任何乙個從有限維空間到另乙個有限維空間的borel可測函式。通俗地來講,多層感知機可以看成是乙個萬能的函式近似器。

多層感知機的學習:

超引數:神經元個數、隱藏層個數、啟用函式等。

主要學習內容:連線神經元的邊的權重。

【反向傳播演算法】

目標:找到讓損失函式最小的損失函式(比如均方誤差損失函式),把損失看成由引數做自變數的函式,隨機地初始化一組引數,然後向著減小損失函式的方向迭代地修正已有引數,直到損失不再減小或達到指定步數。

其中,η是學習率,偏導數可以用鏈式法則計算。

【優化演算法】

梯度下降法是用全部的訓練樣本計算誤差,然後進行權重更新,更新速度比較緩慢。

隨機梯度下降法是隨機選擇單個樣本點計算誤差,計算誤差後馬上進行權重的更新,但是單個樣本得到的梯度不夠穩定,容易抖動地特別厲害。

小批量隨機梯度下降法是隨機選擇小批量樣本點計算誤差,是上述兩種方法的折中。

【dropout】

訓練過程中隨機丟棄一些非輸出節點,防止過擬合。相當於整合若干個子網路,讓模型更加健壯。

機器學習 Task 03 多層感知機

backward 如果需要計算導數,可以在tensor上調.backward backward gradient none,retain variables false sound 如果tensor是標量 即它包含乙個元素的資料 則不需要為backward 指定任何引數 x.grad.zero 在使...

多層感知機

1 單輸出多層感知機 單輸出多層感知機 圖中各變數滿足公式 假如現在有乙個樣本 x 1,x2 t 用該樣本訓練網路時,網路優化的目標為lossfun最小。lossfun是乙個關於變數w和v多元函式。網路的訓練又變成多元函式求極值的問題。求v1的梯度 同理可得v i的梯度 求w11的梯度 同理,可得w...

多層感知機

import d2lzh as d2l from mxnet import nd from mxnet.gluon import loss as gloss 讀取資料集 batch size 256 train iter,test iter d2l.load data fashion mnist b...