TensorFlow 訓練 MNIST 資料(二)

2021-09-02 16:06:52 字數 4370 閱讀 2383

輸入層-->卷積層-->卷積層-->密集連線層-->輸出層。其中每乙個卷積層中還有max pooling,用來進行降維,輸出層中是乙個softmax層。

首先這次構建的神經網路相較上篇的神經網路來說,上次的權重矩陣和偏置矩陣直接設定為0,但是存在乙個問題就是容易導致神經元輸出恒為零的情況出現,由於是對稱的容易導致0梯度問題,解決的辦法就是用乙個較小的接近0的正數來初始化偏置項。

第二個改進的地方是使用卷積層,由於影象具有固有特性,因此它的一部分統計特性和其他部分是一樣的,所以這部分學習到的特徵可以應用到其他部分,所以卷積對映具有位移不變性。雖然應用了卷積來提取特徵值,但是所取到的特徵值還是太多,我們是很難處理的,另乙個原因是特徵值太多的話容易出現過擬合(over-fitting)的問題。因此每乙個卷積計算之後需要進行池化(pooling),下圖顯示了pooling應用於影象的四塊不重合區域:

(來自ufldl)

第三個是加入了密集連線層,這一層是將最小化為7x7的,結構為有1024個神經元的全連線層。

最後一點是在輸出層之前加入了dropout過程,用來減少過擬合的問題,用乙個placeholder來代表乙個神經元的輸出在dropout中保持不變的概率。這樣我們可以在訓練過程中啟用dropout,在測試過程中關閉dropout。

整體的大概流程就是這樣,下面貼**,有詳細注釋:

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

import time

import input_data

import tensorflow as tf

'''

權重初始化

初始化為乙個接近0的很小的正數

'''def weight_variable(shape):

initial = tf.truncated_normal(shape, stddev=0.1)

return tf.variable(initial)

def bias_variable(shape):

initial = tf.constant(0.1, shape=shape)

return tf.variable(initial)

'''卷積和池化,使用卷積步長為1(stride size),0邊距(padding size)

池化用簡單傳統的2x2大小的模板做max pooling

'''def conv2d(x, w):

return tf.nn.conv2d(x, w, strides=[1,1,1,1], padding='same')

def max_pool_2x2(x):

return tf.nn.max_pool(x, ksize=[1,2,2,1],

strides=[1,2,2,1], padding='same')

#計算開始時間

start = time.clock()

#mnist資料輸入

mnist = input_data.read_data_sets("mnist_data/", one_hot=true)

x = tf.placeholder(tf.float32,[none, 784]) #影象輸入向量

w = tf.variable(tf.zeros([784,10])) #權重,初始化值為全零

b = tf.variable(tf.zeros([10])) #偏置,初始化值為全零

#第一層卷積,由乙個卷積接乙個maxpooling完成,卷積在每個

#5x5的patch中算出32個特徵。

#卷積的權重張量形狀是[5, 5, 1, 32],前兩個維度是patch的大小,

#接著是輸入的通道數目,最後是輸出的通道數目。

#而對於每乙個輸出通道都有乙個對應的偏置量。

w_conv1 = weight_variable([5,5,1,32])

b_conv1 = bias_variable([32])

'''把x變成乙個4d向量,其第2、第3維對應的寬、高,最後一維代表的顏色通道數(因為是灰度圖所以這裡的通道數為1,如果是rgb彩色圖,則為3)。

'''x_image = tf.reshape(x, [-1,28,28,1]) #最後一維代表通道數目,如果是rgb則為3

#x_image權重向量卷積,加上偏置項,之後應用relu函式,之後進行max_polling

h_conv1 = tf.nn.relu(conv2d(x_image,w_conv1) + b_conv1)

h_pool1 = max_pool_2x2(h_conv1)

#實現第二層卷積

#每個5x5的patch會得到64個特徵

w_conv2 = weight_variable([5, 5, 32, 64])

b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)

h_pool2 = max_pool_2x2(h_conv2)

#密集連線層

'''尺寸變為7x7,加入有1024個神經元的全連線層,把池化層輸出張量reshape成向量

乘上權重矩陣,加上偏置,然後進行relu

'''w_fc1 = weight_variable([7*7*64,1024])

b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])

h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)

#dropout, 用來防止過擬合 #加在輸出層之前,訓練過程中開啟dropout,測試過程中關閉

keep_prob = tf.placeholder("float")

h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

#輸出層, 新增softmax層

w_fc2 = weight_variable([1024,10])

b_fc2 = bias_variable([10])

y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop,w_fc2) + b_fc2)

#訓練和評估模型

'''adam優化器來做梯度最速下降,feed_dict 加入引數keep_prob控制dropout比例

'''y_ = tf.placeholder("float", [none,10])

cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv)) #計算交叉熵

#使用adam優化器來以0.0001的學習率來進行微調

train_step = tf.train.adamoptimizer(1e-4).minimize(cross_entropy)

#判斷**標籤和實際標籤是否匹配

correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))

accuracy = tf.reduce_mean(tf.cast(correct_prediction,"float"))

#啟動建立的模型,並初始化變數

sess = tf.session()

sess.run(tf.initialize_all_variables())

#開始訓練模型,迴圈訓練20000次

for i in range(20000):

batch = mnist.train.next_batch(50) #batch 大小設定為50

if i%100 == 0:

train_accuracy = accuracy.eval(session=sess,

feed_dict=)

print("step %d, train_accuracy %g" %(i,train_accuracy))

#神經元輸出保持不變的概率 keep_prob 為0.5

train_step.run(session=sess, feed_dict=)

#神經元輸出保持不變的概率 keep_prob 為 1,即不變,永遠保持輸出

print("test accuracy %g" %accuracy.eval(session=sess,

feed_dict=))

#計算程式結束時間

end = time.clock()

print("running time is %g s" %(end-start))

------ eof ---------

tensorflow教程學習三深入MNIST

載入資料 from tensorflow.examples.tutorials.mnist import input data mnist input data.read data sets mnist data one hot true 我們使用interactivesession類可以更加靈活地...

TensorFlow訓練Logistic回歸

如下圖,可以清晰看到線性回歸和邏輯回歸的關係,乙個線性方程被邏輯方程歸一化後就成了邏輯回歸。對於二分類,輸出假如線性回歸模型為,則要將z轉成y,即y g z 於是最直接的方式是用單位階躍函式來表示,即 如圖,但階躍函式不連續,於是用sigmoid函式替代之,為 如圖,則有,即logistics函式,...

Tensorflow訓練迴圈

def fit loop model,inputs,targets,sample weights none,class weight none,val inputs none,val targets none,val sample weights none,batch size none,epoch...