深度學習一

一、線性回歸

損失函式

在模型訓練中，我們需要衡量****值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差，且數值越小表示誤差越小。乙個常用的選擇是平方函式。它在評估索引為 ii 的樣本誤差的表示式為

l(i)(w,b)=12(y(i)−y(i))2,l(i)(w,b)=12(y(i)−y(i))2,

l(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2.

二、softmax和分類模型

交叉熵損失函式

對於樣本ii，我們構造向量y(i)∈rqy(i)∈rq ，使其第y(i)y(i)（樣本ii類別的離散數值）個元素為1，其餘為0。這樣我們的訓練目標可以設為使**概率分布y(i)y(i)盡可能接近真實的標籤概率分布y(i)y(i)。

三、多層感知機

啟用函式

上述問題的根源在於全連線層只是對資料做仿射變換（affine transformation），而多個仿射變換的疊加仍然是乙個仿射變換。解決問題的乙個方法是引入非線性變換，例如對隱藏變數使用按元素運算的非線性函式進行變換，然後再作為下乙個全連線層的輸入。這個非線性函式被稱為啟用函式（activation function）。

下面我們介紹幾個常用的啟用函式：

relu函式

relu（rectified linear unit）函式提供了乙個很簡單的非線性變換。給定元素xx，該函式定義為

relu(x)=max(x,0).relu(x)=max(x,0).

四、文字預處理

用現有工具進行分詞

1.標點符號通常可以提供語義資訊，但是我們的方法直接將其丟棄了

2.類似「shouldn』t", 「doesn』t"這樣的詞會被錯誤地處理

3.類似"mr.」, "dr."這樣的詞會被錯誤地處理

五、語言模型

一段自然語言文字可以看作是乙個離散時間序列，給定乙個長度為tt的詞的序列w1,w2,…,wtw1,w2,…,wt，語言模型的目標就是評估該序列是否合理，即計算該序列的概率：

p(w1,w2,…,wt).p(w1,w2,…,wt).

假設序列w1,w2,…,wtw1,w2,…,wt 中的每個詞是依次生成的，我們有

p(w1,w2,…,wt)=∏t=1tp(wt∣w1,…,wt−1)=p(w1)p(w2∣w1)⋯p(wt∣w1w2⋯wt−1)p(w1,w2,…,wt)=∏t=1tp(wt∣w1,…,wt−1)=p(w1)p(w2∣w1)⋯p(wt∣w1w2⋯wt−1)

六、迴圈神經網路

我們的目的是基於當前的輸入與過去的輸入序列，**序列的下乙個字元。迴圈神經網路引入乙個隱藏變數hh，用htht表示hh在時間步tt的值。htht的計算基於xtxt和ht−1ht−1，可以認為htht記錄了到當前字元為止的序列資訊，利用htht對序列的下乙個字元進行**。

深度學習一

深度學習（一）深度學習學習資料

深度學習深度學習（一）開篇

深度學習（一）深度學習的概念

深度學習一

深度學習（一）深度學習學習資料

深度學習深度學習（一）開篇

深度學習（一）深度學習的概念

相關推薦