線性回歸
1.**模型:**為了簡單起見,這裡我們假設**只取決於房屋狀況的兩個因素,即面積(平方公尺)和房齡(年)。接下來我們希望探索**與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係:
price=warea⋅area+wage⋅age+bprice=warea⋅area+wage⋅age+b
2.**資料集:**我們通常收集一系列的真實資料,例如多棟房屋的真實售出**和它們對應的面積和房齡。我們希望在這個資料上面尋找模型引數來使模型的****與真實**的誤差最小。在機器學習術語裡,該資料集被稱為訓練資料集(training data set)或訓練集(training set),一棟房屋被稱為乙個樣本(sample),其真實售出**叫作標籤(label),用來**標籤的兩個因素叫作特徵(feature)。特徵用來表徵樣本的特點。
3.**損失函式:**在模型訓練中,我們需要衡量****值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差,且數值越小表示誤差越小。乙個常用的選擇是平方函式。 它在評估索引為 ii 的樣本誤差的表示式為
4.優化函式 - 隨機梯度下降:(i)初始化模型引數,一般來說使用隨機初始化;
(ii)我們在資料上迭代多次,通過在負梯度方向移動引數來更新每個引數。
softmax與分類模型
1.處理分類問題,即在原輸出基礎資料上,加上e的該資料次方,最後歸一化即得到softmax分類模型。
2.交叉熵損失函式:
多層感知機
1.下圖展示了乙個多層感知機的神經網路圖,它含有乙個隱藏層,該層中有5個隱藏單元。
2.**啟用函式:**上述問題的根源在於全連線層只是對資料做仿射變換(affine transformation),而多個仿射變換的疊加仍然是乙個仿射變換。解決問題的乙個方法是引入非線性變換,例如對隱藏變數使用按元素運算的非線性函式進行變換,然後再作為下乙個全連線層的輸入。這個非線性函式被稱為啟用函式(activation function)。
文字預處理
文字是一類序列資料,一篇文章可以看作是字元或單詞的序列,本節將介紹文字資料的常見預處理步驟,預處理通常包括四個步驟:
1.讀入文字
2.分詞
3.建立字典,將每個詞對映到乙個唯一的索引(index)
4.將文字從詞的序列轉換為索引的序列,方便輸入模型
語言模型
時序資料的取樣
1.隨機取樣
2.相鄰取樣
迴圈神經網路基礎
1.下圖展示了如何基於迴圈神經網路實現語言模型。我們的目的是基於當前的輸入與過去的輸入序列,**序列的下乙個字元。迴圈神經網路引入乙個隱藏變數h,用ht表示h在時間步t的值。ht的計算基於xt和ht−1,可以認為ht記錄了到當前字元為止的序列資訊,利用ht對序列的下乙個字元進行**。
2.迴圈神經網路的構造
文字預處理
常見預處理步驟,預處理通常包括四個步驟 讀入文字 分詞建立字典,將每個詞對映到乙個唯一的索引 index 將文字從詞的序列轉換為索引的序列,方便輸入模型 現有的工具可以很好地進行分詞,我們在這裡簡單介紹其中的兩個 spacy和nltk。text mr.chen doesn t agree with ...
文字預處理
本文章內容主要學習文字預處理的基本步驟及實現。1 讀入文字 2 分詞 3 建立詞典,將每乙個詞對映到乙個唯一的索引 4 將文字從詞的序列轉換為索引的序列,方便輸入模型 此處用一部英文 即h.g.well的time machine,作為示例,展示文字預處理的具體過程。def read time mac...
文字語料預處理總結
import jieba import re eve list 測試 現power type check 依據bom和裝配圖,bom中沒有不用處理 記憶體問題反饋攻關組跟蹤 print list map lambda x re.sub s d a za z x eve list import jie...