深度學習中，偏置（bias）在什麼情況可以不要？

x1w1 + x2w2 +…+xnwn > t（t為乙個閾值），而t越大，想啟用這個感知器的難度越大，人工選擇乙個閾值並不是乙個好的方法，因為樣本那麼多，我不可能手動選擇乙個閾值，使得模型整體表現最佳，那麼我們可以使得t變成可學習的，這樣一來，t會自動學習到乙個數，使得模型的整體表現最佳。當把t移動到左邊，它就成了偏置，x1w1 + x2w2 +…+xnwn - t> 0 ----->x*w +b > 0，總之，偏置的大小控制著啟用這個感知器的難易程度。

1）bias被設定false，也就是沒有用到偏置。

def conv_bn(inp, oup, stride):
return nn.sequential(
nn.conv2d(inp, oup, 3, stride, 1, bias=false),
nn.batchnorm2d(oup),
nn.relu(inplace=true)
)

2）bias被設定為true，用到了偏置。

def conv3x3(in_channels, out_channels, stride=1, 
padding=1, bias=true, groups=1):    
"""3x3 convolution with padding
"""return nn.conv2d(
in_channels, 
out_channels, 
kernel_size=3, 
stride=stride,
padding=padding,
bias=bias,
groups=groups)

這兩份的**區別在於卷積後面有沒有接bn操作（後面我會有部落格講歸一化操作，這裡就不展開了）

bn操作，裡面有乙個關鍵操作：

其中x1 = x0 * w0 + b0，而e[x1] = e[x0*w0] + b0，所以對於分子而言，加沒加偏置，沒有影響；而對於下面分母而言，因為var是方差操作，所以也沒有影響。所以，卷積之後，如果要接bn操作，最好是不設定偏置，因為不起作用，而且佔顯示卡記憶體。

深度學習中，偏置（bias）在什麼情況可以不要？

深度學習在CTR中的應用

深度學習在視覺感知中的運用（1）

時間特徵在深度學習中的表示問題

深度學習中，偏置（bias）在什麼情況可以不要？

深度學習在CTR中的應用

深度學習在視覺感知中的運用（1）

時間特徵在深度學習中的表示問題

相關推薦