一、線性回歸
損失函式
在模型訓練中,我們需要衡量****值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差,且數值越小表示誤差越小。乙個常用的選擇是平方函式。 它在評估索引為 ii 的樣本誤差的表示式為
l(i)(w,b)=12(y(i)−y(i))2,l(i)(w,b)=12(y(i)−y(i))2,
l(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2.
二、softmax和分類模型
交叉熵損失函式
對於樣本ii,我們構造向量y(i)∈rqy(i)∈rq ,使其第y(i)y(i)(樣本ii類別的離散數值)個元素為1,其餘為0。這樣我們的訓練目標可以設為使**概率分布y(i)y(i)盡可能接近真實的標籤概率分布y(i)y(i)。
三、多層感知機
啟用函式
上述問題的根源在於全連線層只是對資料做仿射變換(affine transformation),而多個仿射變換的疊加仍然是乙個仿射變換。解決問題的乙個方法是引入非線性變換,例如對隱藏變數使用按元素運算的非線性函式進行變換,然後再作為下乙個全連線層的輸入。這個非線性函式被稱為啟用函式(activation function)。
下面我們介紹幾個常用的啟用函式:
relu函式
relu(rectified linear unit)函式提供了乙個很簡單的非線性變換。給定元素xx,該函式定義為
relu(x)=max(x,0).relu(x)=max(x,0).
四、文字預處理
用現有工具進行分詞
1.標點符號通常可以提供語義資訊,但是我們的方法直接將其丟棄了
2.類似「shouldn』t", 「doesn』t"這樣的詞會被錯誤地處理
3.類似"mr.」, "dr."這樣的詞會被錯誤地處理
五、語言模型
一段自然語言文字可以看作是乙個離散時間序列,給定乙個長度為tt的詞的序列w1,w2,…,wtw1,w2,…,wt,語言模型的目標就是評估該序列是否合理,即計算該序列的概率:
p(w1,w2,…,wt).p(w1,w2,…,wt).
假設序列w1,w2,…,wtw1,w2,…,wt 中的每個詞是依次生成的,我們有
p(w1,w2,…,wt)=∏t=1tp(wt∣w1,…,wt−1)=p(w1)p(w2∣w1)⋯p(wt∣w1w2⋯wt−1)p(w1,w2,…,wt)=∏t=1tp(wt∣w1,…,wt−1)=p(w1)p(w2∣w1)⋯p(wt∣w1w2⋯wt−1)
六、迴圈神經網路
我們的目的是基於當前的輸入與過去的輸入序列,**序列的下乙個字元。迴圈神經網路引入乙個隱藏變數hh,用htht表示hh在時間步tt的值。htht的計算基於xtxt和ht−1ht−1,可以認為htht記錄了到當前字元為止的序列資訊,利用htht對序列的下乙個字元進行**。
深度學習(一)深度學習學習資料
持續更新 一 學習清單 1 收集了各種最新最經典的文獻,神經網路的資源列表 2 計算機視覺學習清單 3 機器學習學習清單 二 訓練資料 人臉資料 1 香港中文大學訓練資料集 此資料庫包含了20w張人臉,每張標註了5個特徵點 以及幾十種屬性 是否微笑 膚色 髮色 性別等屬性 2 68個人臉特徵點 3 ...
深度學習深度學習(一)開篇
深度學習 深度學習 記得9年前寫的一篇部落格,十年的程式設計師,一晃眼,差不多10年又快到了。這一輪的人工智慧,深度學習,他是我見到的乙個非常特殊的程式設計方式 用資料程式設計。是的,他絕對不像其他的程式語言,是完全乙個嶄新的天地,掌握她,絕對會帶來驚喜 你會發現以前感覺超級難的東西會忽然 哇,這個...
深度學習(一)深度學習的概念
深度學習是機器學習與神經網路 人工智慧 圖形化建模 優化 模式識別和訊號處理等技術融合後產生的乙個領域。深度學習網路是神經網路革命性的發展,人們甚至認為可以用它來建立更加強大的 模型。深度學習使用多層機器學習模型對資料進行有監督學習或無監督學習。模型中的不同層由非線性資料變換的多個階段組成,資料的特...