多層full connect 神經網路測試

2021-08-22 19:12:03 字數 3447 閱讀 3651

1、搭建了乙個多層full-connect神經網路,用於mnist識別

2、**中測試了幾種cross_entropy的用法,並進行對比,cross_entropy1,cross_entropy2,cross_entropy3對輸入引數各有要求,所得到的結果是相同的。

3、在測試過程中出現了loss=nan的情況,上網搜尋原因後發現是兩個原因導致的,1)學習率過高,於是將learning_rate調整為0.001 。 2)cross_entropy中出現了log(0)的情況,所以用tf.clip_by_value() 對log的輸入值進行來限制

4、發現多次測試,不同的變數初始化,最終的準確率存在0.1級別的差距

5、用sgd優化演算法,測試了多種loss函式,包括loss=loss1_mean,loss=loss1_sum,loss1_mean=cross_entropy1,使用loss=loss1_mean效果最好,基本每次都能收斂,另外兩個存在不收斂情況(有時發散,有時收斂,不穩定)。

6、疑問:loss過大不好?還是因為梯度下降法本身存在缺陷,時常會收斂到區域性極小值,而不是全域性最小值。又測試了

adamoptimizer優化器,對多個損失函式都比較魯棒,都能收斂,所以應該是梯度下降法本身存在的問題。
#-*-coding:utf-8-*-

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

learning_rate = 0.001

batch_size=100

##get data

mnist = input_data.read_data_sets('./mnist_data',one_hot=true)

## data_input

x = tf.placeholder(tf.float32,[none,784])

y_ = tf.placeholder(tf.float32,[none,10])

##forward process

w1 = tf.variable(tf.truncated_normal([784, 1024], stddev=0.1))

b1 = tf.variable(tf.zeros([1024]))

w2 = tf.variable(tf.truncated_normal([1024, 800], stddev=0.1))

b2 = tf.variable(tf.zeros([800]))

w3 = tf.variable(tf.truncated_normal([800,500],stddev=0.1))

b3 = tf.variable(tf.zeros([500]))

w4 = tf.variable(tf.truncated_normal([500,10],stddev=0.1))

b4 = tf.variable(tf.zeros([10]))

layer1 = tf.nn.relu(tf.matmul(x, w1) + b1)

layer2 = tf.nn.relu(tf.matmul(layer1,w2)+b2)

layer3 = tf.nn.relu(tf.matmul(layer2,w3)+b3)

layer4 = tf.nn.relu(tf.matmul(layer3,w4)+b4)

y = layer4

y1 = tf.nn.softmax(y)

y1 = tf.clip_by_value(y1,1e-10,1e+100)

##loss

cross_entropy1 = -tf.reduce_sum(y_*tf.log(y1),1)

cross_entropy2 = tf.nn.softmax_cross_entropy_with_logits(labels=y_,logits=y)

cross_entropy3 = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.argmax(y_,1),logits=y)

loss1_mean = tf.reduce_mean(cross_entropy1)

loss1_sum = tf.reduce_sum(cross_entropy1)

loss2_mean = tf.reduce_mean(cross_entropy2)

loss2_sum = tf.reduce_sum(cross_entropy2)

loss3_mean = tf.reduce_mean(cross_entropy3)

loss3_sum = tf.reduce_sum(cross_entropy3)

###########

loss = loss1_mean

train_step = tf.train.gradientdescentoptimizer(learning_rate).minimize(loss)

correct_predict = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(y_,1),tf.argmax(y,1)),tf.float32))

##train

with tf.session() as sess:

sess.run(tf.global_variables_initializer())

validata_x = mnist.validation.images

validata_y = mnist.validation.labels

for i in range(30000):

xs,ys = mnist.train.next_batch(batch_size=batch_size)

sess.run(train_step,feed_dict=)

if i%1000==0:

correct_value = sess.run(correct_predict,feed_dict=)

print("step %d,correct_prediction = %.5f"%(i,correct_value))

####test cross_entropy

# print('cross_entropy1:\n',sess.run(cross_entropy1, feed_dict=))

# print('cross_entropy2:\n',sess.run(cross_entropy2, feed_dict=))

# print('cross_entropy3:\n',sess.run(cross_entropy3, feed_dict=))

## #

# print('loss1_mean:\n', sess.run(loss1_mean, feed_dict=))

# print('loss1_sum:\n', sess.run(loss1_sum, feed_dict=))

# print('\n')

神經網路簡介 多層神經網路

如上圖所示,該神經網路有三層。我們標記第一層 也就是輸入層 為a 1 第一層與第二層連線權重為w 1 然後第一層輸入與第一層權重的線性和為z 1 第一層神經元個數為n 1 並依次標記剩餘網路層。可以看出,存在 z l j i 1 n l a l i w l i,j a l w l j a l 1 f...

人工神經網路 多層神經網路

模型原型 sklearn.neural network.mlpclassifier hidden layer sizes 100,activation relu algorithm adam alpha 0.0001,batch size auto learning rate constant le...

MLP 多層神經網路 介紹

接觸神經網路 ann 的時間很長了,以前也只是學了學原理,做過乙個bpn的練習,沒有系統的總結過,最近看torch的原始碼,對mlp有了更多的了解,寫寫自己學到的東西吧,算是做了一次總結!1 高度的並行性 人工神經網路是由許多相同的簡單處理單元併聯組合而成,雖然每個單元的功能簡單,但大量簡單單元的並...