1、搭建了乙個多層full-connect神經網路,用於mnist識別
2、**中測試了幾種cross_entropy的用法,並進行對比,cross_entropy1,cross_entropy2,cross_entropy3對輸入引數各有要求,所得到的結果是相同的。
3、在測試過程中出現了loss=nan的情況,上網搜尋原因後發現是兩個原因導致的,1)學習率過高,於是將learning_rate調整為0.001 。 2)cross_entropy中出現了log(0)的情況,所以用tf.clip_by_value() 對log的輸入值進行來限制
4、發現多次測試,不同的變數初始化,最終的準確率存在0.1級別的差距
5、用sgd優化演算法,測試了多種loss函式,包括loss=loss1_mean,loss=loss1_sum,loss1_mean=cross_entropy1,使用loss=loss1_mean效果最好,基本每次都能收斂,另外兩個存在不收斂情況(有時發散,有時收斂,不穩定)。
6、疑問:loss過大不好?還是因為梯度下降法本身存在缺陷,時常會收斂到區域性極小值,而不是全域性最小值。又測試了
adamoptimizer優化器,對多個損失函式都比較魯棒,都能收斂,所以應該是梯度下降法本身存在的問題。
#-*-coding:utf-8-*-
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
learning_rate = 0.001
batch_size=100
##get data
mnist = input_data.read_data_sets('./mnist_data',one_hot=true)
## data_input
x = tf.placeholder(tf.float32,[none,784])
y_ = tf.placeholder(tf.float32,[none,10])
##forward process
w1 = tf.variable(tf.truncated_normal([784, 1024], stddev=0.1))
b1 = tf.variable(tf.zeros([1024]))
w2 = tf.variable(tf.truncated_normal([1024, 800], stddev=0.1))
b2 = tf.variable(tf.zeros([800]))
w3 = tf.variable(tf.truncated_normal([800,500],stddev=0.1))
b3 = tf.variable(tf.zeros([500]))
w4 = tf.variable(tf.truncated_normal([500,10],stddev=0.1))
b4 = tf.variable(tf.zeros([10]))
layer1 = tf.nn.relu(tf.matmul(x, w1) + b1)
layer2 = tf.nn.relu(tf.matmul(layer1,w2)+b2)
layer3 = tf.nn.relu(tf.matmul(layer2,w3)+b3)
layer4 = tf.nn.relu(tf.matmul(layer3,w4)+b4)
y = layer4
y1 = tf.nn.softmax(y)
y1 = tf.clip_by_value(y1,1e-10,1e+100)
##loss
cross_entropy1 = -tf.reduce_sum(y_*tf.log(y1),1)
cross_entropy2 = tf.nn.softmax_cross_entropy_with_logits(labels=y_,logits=y)
cross_entropy3 = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.argmax(y_,1),logits=y)
loss1_mean = tf.reduce_mean(cross_entropy1)
loss1_sum = tf.reduce_sum(cross_entropy1)
loss2_mean = tf.reduce_mean(cross_entropy2)
loss2_sum = tf.reduce_sum(cross_entropy2)
loss3_mean = tf.reduce_mean(cross_entropy3)
loss3_sum = tf.reduce_sum(cross_entropy3)
###########
loss = loss1_mean
train_step = tf.train.gradientdescentoptimizer(learning_rate).minimize(loss)
correct_predict = tf.reduce_mean(tf.cast(tf.equal(tf.argmax(y_,1),tf.argmax(y,1)),tf.float32))
##train
with tf.session() as sess:
sess.run(tf.global_variables_initializer())
validata_x = mnist.validation.images
validata_y = mnist.validation.labels
for i in range(30000):
xs,ys = mnist.train.next_batch(batch_size=batch_size)
sess.run(train_step,feed_dict=)
if i%1000==0:
correct_value = sess.run(correct_predict,feed_dict=)
print("step %d,correct_prediction = %.5f"%(i,correct_value))
####test cross_entropy
# print('cross_entropy1:\n',sess.run(cross_entropy1, feed_dict=))
# print('cross_entropy2:\n',sess.run(cross_entropy2, feed_dict=))
# print('cross_entropy3:\n',sess.run(cross_entropy3, feed_dict=))
## #
# print('loss1_mean:\n', sess.run(loss1_mean, feed_dict=))
# print('loss1_sum:\n', sess.run(loss1_sum, feed_dict=))
# print('\n')
神經網路簡介 多層神經網路
如上圖所示,該神經網路有三層。我們標記第一層 也就是輸入層 為a 1 第一層與第二層連線權重為w 1 然後第一層輸入與第一層權重的線性和為z 1 第一層神經元個數為n 1 並依次標記剩餘網路層。可以看出,存在 z l j i 1 n l a l i w l i,j a l w l j a l 1 f...
人工神經網路 多層神經網路
模型原型 sklearn.neural network.mlpclassifier hidden layer sizes 100,activation relu algorithm adam alpha 0.0001,batch size auto learning rate constant le...
MLP 多層神經網路 介紹
接觸神經網路 ann 的時間很長了,以前也只是學了學原理,做過乙個bpn的練習,沒有系統的總結過,最近看torch的原始碼,對mlp有了更多的了解,寫寫自己學到的東西吧,算是做了一次總結!1 高度的並行性 人工神經網路是由許多相同的簡單處理單元併聯組合而成,雖然每個單元的功能簡單,但大量簡單單元的並...