Autoencoders 自編碼器

2022-02-25 12:36:17 字數 3946 閱讀 5947

a)、【無監督學習】:自編碼器是一種能夠通過無監督學習,學到輸入資料高效表示的人工神經網路。

b)、【輸出與輸入資料相似生成模型】:此外,自編碼器還可以隨機生成與訓練資料類似的資料,這被稱作生成模型(generative model)。比如,可以用人臉訓練乙個自編碼器,它可以生成新的。①、機器學習中的監督學習和非監督學習,其中非監督學習簡單來說就是學習人類沒有標記過的資料。

②、對於沒有標記的資料最常見的應用就是通過聚類(clustering)的方式將資料進行分類。

③、對於這些資料來說通常有非常多的維度或者說features。

④、如何降低這些資料的維度或者說「壓縮」資料,從而減輕模型學習的負擔,我們就要用到autoencoder了。用autoencoder 給資料「壓縮」和降維不僅能夠給機器「減壓」,同時也有利於資料的視覺化(人類只能看懂三維的資料)(a)、autoencoder 實際上跟普通的神經網路沒有什麼本質的區別,分為輸入層,隱藏層和輸出層。

(b)、唯一比較特殊的是,輸入層的輸入feature的數量(也就是神經元的數量)要等於輸出層。同時要保證輸入和輸出相等。看圖易知。(a)、因為輸出要等於輸入,所以中間的每一層都最大程度地保留了原有的資料資訊,

(b)、但是由於神經元個數發生了變化,資料的維度也就發生了變化。比如上圖的中間層(第三層)只有兩個神經元,那麼這一層輸出的結果實際上就是二維的資料結構。

(c)、我們就可以用這一層的輸出結果進行無監督學習分類,或者做視覺化的展示。(1)、對於autoencoder從輸入層到最中間層的資料處理過程叫做資料編碼(encode)過程,

(2)、從中間層到輸出層則為解碼(decode)過程,最後保證輸出等於輸入。一、autoencoder 不是簡單地去掉乙個維度,而是通過編碼的過程將資料「壓縮」到二維。

二、上面只是乙個非常簡單的將三維資料通過autoencoder降到二維空間,當資料的feature 太多的時候,通過autoencoder 就可以在最大限度保留原資料的資訊並降低源資料的維度。**或參考:

之前的文章介紹過機器學習中的監督學習和非監督學習,其中非監督學習簡單來說就是學習人類沒有標記過的資料。對於沒有標記的資料最常見的應用就是通過聚類(clustering)的方式將資料進行分類。對於這些資料來說通常有非常多的維度或者說features。如何降低這些資料的維度或者說「壓縮」資料,從而減輕模型學習的負擔,我們就要用到autoencoder了。

用autoencoder 給資料「壓縮」和降維不僅能夠給機器「減壓」,同時也有利於資料的視覺化(人類只能看懂三維的資料)。

autoencoder 實際上跟普通的神經網路沒有什麼本質的區別,分為輸入層,隱藏層和輸出層。唯一比較特殊的是,輸入層的輸入feature的數量(也就是神經元的數量)要等於輸出層。同時要保證輸入和輸出相等。

結構大概就是如圖所示

因為輸出要等於輸入,所以中間的每一層都最大程度地保留了原有的資料資訊,但是由於神經元個數發生了變化,資料的維度也就發生了變化。比如上圖的中間層(第三層)只有兩個神經元,那麼這一層輸出的結果實際上就是二維的資料結構。我們就可以用這一層的輸出結果進行無監督學習分類,或者做視覺化的展示。

對於autoencoder從輸入層到最中間層的資料處理過程叫做資料編碼(encode)過程,從中間層到輸出層則為解碼(decode)過程,最後保證輸出等於輸入。

autoencoder的隱藏層可以是多層也可以是單層,這裡我用乙個只有一層隱藏層的autoencoder的例項來介紹autoencoder.

autoencoder例項**

1、匯入需要用到的庫

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

2、建立乙個三維的資料

這裡用sklearn 的乙個make_blobs的工具創造有兩個聚集點的三維資料

from sklearn.datasets import make_blobs

data = make_blobs(n_samples=100, n_features=3,centers=2,random_state=101)

資料長這個樣子

注意data[0]是100x3的資料(100個點,3個features(維度))

3. 搭建神經網路

下面用tensorflow layers來搭乙個三層的全連線的神經網路,輸入層,隱藏層和輸出層的神經元個數分別是3,2,3。

import tensorflow as tf

from tensorflow.contrib.layers import fully_connected

num_inputs = 3 # 3 dimensional input

num_hidden = 2 # 2 dimensional representation

num_outputs = num_inputs # must be true for an autoencoder!

learning_rate = 0.01

placeholder,layers,loss function 和 optimizer

#placeholder

x = tf.placeholder(tf.float32, shape=[none, num_inputs])

#layers

hidden = fully_connected(x, num_hidden, activation_fn=none)

outputs = fully_connected(hidden, num_outputs, activation_fn=none)

#loss function

loss = tf.reduce_mean(tf.square(outputs - x)) # mse

#optimizer

optimizer = tf.train.adamoptimizer(learning_rate)

train = optimizer.minimize( loss)

#init

init = tf.global_variables_initializer()

4. 訓練神經網路
num_steps = 1000

with tf.session() as sess:

sess.run(init)

for iteration in range(num_steps):

sess.run(train,feed_dict=)

# now ask for the hidden layer output (the 2 dimensional output)

output_2d = hidden.eval(feed_dict=)

注意:output_2d就是中間層輸出的結果,這是乙個二維(100x2)的資料。

這個資料長這個樣子

4.總結

從上面的例子可以看到,autoencoder 不是簡單地去掉乙個維度,而是通過編碼的過程將資料「壓縮」到二維。這些資料通過解碼過程可以再次在輸出層輸出三維的資料,並且保留了元資料的兩個積聚點。

上面只是乙個非常簡單的將三維資料通過autoencoder降到二維空間,當資料的feature 太多的時候,通過autoencoder 就可以在最大限度保留原資料的資訊並降低源資料的維度。

自編碼與變分自編碼

神經網路的本質是資訊壓縮特徵提取,神經網路公式h w x 做內積,所以神經網路是個相關性判斷 研究ai頂級公司研究損失。無監督學習是在沒有資料標籤的情況下,尋找資料特徵。但是無監督學習的標籤是自身,自監督學習,是無監督學習的一種特殊情況,他是將資料切分n塊,然後用各個塊來 其他塊。弱監督學習,是將無...

自編碼演算法

自編碼神經網路是一種無監督學習演算法,它使用了反向傳播演算法,並讓目標值等於輸入值,它是一種盡可能復現輸入訊號的神經網路。為了實現這種復現,自動編碼器就必須捕捉可以代表輸入資料的最重要的因素,就像pca那樣,找到可以代表原資訊的主要成分。一 autoencoder演算法的思路 1 給定無標籤資料,用...

卷積自編碼

這篇教程是翻譯paolo galeone寫的卷積自編碼分析教程,作者已經授權翻譯,這是原文。卷積操作符會對輸入訊號進行濾波操作,以便提取其內容的一部分。在傳統的方法中,自編碼沒有考慮到訊號可以被看做是和其他訊號的和。相反,卷積自編碼就是使用卷積操作來做訊號的疊加之和。他們對一組簡單的輸入訊號進行編碼...