輸入層-->卷積層-->卷積層-->密集連線層-->輸出層。其中每乙個卷積層中還有max pooling,用來進行降維,輸出層中是乙個softmax層。
首先這次構建的神經網路相較上篇的神經網路來說,上次的權重矩陣和偏置矩陣直接設定為0,但是存在乙個問題就是容易導致神經元輸出恒為零的情況出現,由於是對稱的容易導致0梯度問題,解決的辦法就是用乙個較小的接近0的正數來初始化偏置項。
第二個改進的地方是使用卷積層,由於影象具有固有特性,因此它的一部分統計特性和其他部分是一樣的,所以這部分學習到的特徵可以應用到其他部分,所以卷積對映具有位移不變性。雖然應用了卷積來提取特徵值,但是所取到的特徵值還是太多,我們是很難處理的,另乙個原因是特徵值太多的話容易出現過擬合(over-fitting)的問題。因此每乙個卷積計算之後需要進行池化(pooling),下圖顯示了pooling應用於影象的四塊不重合區域:
(來自ufldl)
第三個是加入了密集連線層,這一層是將最小化為7x7的,結構為有1024個神經元的全連線層。
最後一點是在輸出層之前加入了dropout過程,用來減少過擬合的問題,用乙個placeholder來代表乙個神經元的輸出在dropout中保持不變的概率。這樣我們可以在訓練過程中啟用dropout,在測試過程中關閉dropout。
整體的大概流程就是這樣,下面貼**,有詳細注釋:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import time
import input_data
import tensorflow as tf
'''
權重初始化
初始化為乙個接近0的很小的正數
'''def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.variable(initial)
'''卷積和池化,使用卷積步長為1(stride size),0邊距(padding size)
池化用簡單傳統的2x2大小的模板做max pooling
'''def conv2d(x, w):
return tf.nn.conv2d(x, w, strides=[1,1,1,1], padding='same')
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1,2,2,1],
strides=[1,2,2,1], padding='same')
#計算開始時間
start = time.clock()
#mnist資料輸入
mnist = input_data.read_data_sets("mnist_data/", one_hot=true)
x = tf.placeholder(tf.float32,[none, 784]) #影象輸入向量
w = tf.variable(tf.zeros([784,10])) #權重,初始化值為全零
b = tf.variable(tf.zeros([10])) #偏置,初始化值為全零
#第一層卷積,由乙個卷積接乙個maxpooling完成,卷積在每個
#5x5的patch中算出32個特徵。
#卷積的權重張量形狀是[5, 5, 1, 32],前兩個維度是patch的大小,
#接著是輸入的通道數目,最後是輸出的通道數目。
#而對於每乙個輸出通道都有乙個對應的偏置量。
w_conv1 = weight_variable([5,5,1,32])
b_conv1 = bias_variable([32])
'''把x變成乙個4d向量,其第2、第3維對應的寬、高,最後一維代表的顏色通道數(因為是灰度圖所以這裡的通道數為1,如果是rgb彩色圖,則為3)。
'''x_image = tf.reshape(x, [-1,28,28,1]) #最後一維代表通道數目,如果是rgb則為3
#x_image權重向量卷積,加上偏置項,之後應用relu函式,之後進行max_polling
h_conv1 = tf.nn.relu(conv2d(x_image,w_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
#實現第二層卷積
#每個5x5的patch會得到64個特徵
w_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
#密集連線層
'''尺寸變為7x7,加入有1024個神經元的全連線層,把池化層輸出張量reshape成向量
乘上權重矩陣,加上偏置,然後進行relu
'''w_fc1 = weight_variable([7*7*64,1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)
#dropout, 用來防止過擬合 #加在輸出層之前,訓練過程中開啟dropout,測試過程中關閉
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
#輸出層, 新增softmax層
w_fc2 = weight_variable([1024,10])
b_fc2 = bias_variable([10])
y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop,w_fc2) + b_fc2)
#訓練和評估模型
'''adam優化器來做梯度最速下降,feed_dict 加入引數keep_prob控制dropout比例
'''y_ = tf.placeholder("float", [none,10])
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv)) #計算交叉熵
#使用adam優化器來以0.0001的學習率來進行微調
train_step = tf.train.adamoptimizer(1e-4).minimize(cross_entropy)
#判斷**標籤和實際標籤是否匹配
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction,"float"))
#啟動建立的模型,並初始化變數
sess = tf.session()
sess.run(tf.initialize_all_variables())
#開始訓練模型,迴圈訓練20000次
for i in range(20000):
batch = mnist.train.next_batch(50) #batch 大小設定為50
if i%100 == 0:
train_accuracy = accuracy.eval(session=sess,
feed_dict=)
print("step %d, train_accuracy %g" %(i,train_accuracy))
#神經元輸出保持不變的概率 keep_prob 為0.5
train_step.run(session=sess, feed_dict=)
#神經元輸出保持不變的概率 keep_prob 為 1,即不變,永遠保持輸出
print("test accuracy %g" %accuracy.eval(session=sess,
feed_dict=))
#計算程式結束時間
end = time.clock()
print("running time is %g s" %(end-start))
------ eof --------- tensorflow教程學習三深入MNIST
載入資料 from tensorflow.examples.tutorials.mnist import input data mnist input data.read data sets mnist data one hot true 我們使用interactivesession類可以更加靈活地...
TensorFlow訓練Logistic回歸
如下圖,可以清晰看到線性回歸和邏輯回歸的關係,乙個線性方程被邏輯方程歸一化後就成了邏輯回歸。對於二分類,輸出假如線性回歸模型為,則要將z轉成y,即y g z 於是最直接的方式是用單位階躍函式來表示,即 如圖,但階躍函式不連續,於是用sigmoid函式替代之,為 如圖,則有,即logistics函式,...
Tensorflow訓練迴圈
def fit loop model,inputs,targets,sample weights none,class weight none,val inputs none,val targets none,val sample weights none,batch size none,epoch...