DataWhale學習筆記線性回歸

2021-10-02 20:00:19 字數 1123 閱讀 4513

模型

線性回歸是機器學習中最為基礎和理解的模型,但很多的模型都是建立在該模型之上。在模型的構建中,線性回歸的目的是求解資料集中特徵屬性x以及類別y之間的對映關係。通過優化函式(本文採用隨機梯度下降法)降低模型**值與y之間的差別。

為了簡單起見,本文對放假模型進行**,這裡我們假設**只取決於房屋狀況的面積(平方公尺)和房齡(年)。接下來我們希望探索**與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係為:

損失函式

在模型訓練中,我們需要衡量****值與真實值之間的誤差。通常我們會選取乙個非負數作為誤差,且數值越小表示誤差越小。乙個常用的選擇是平方函式。 它在評估索引為 i 的樣本誤差的表示式為:

優化函式 - 隨機梯度下降

當模型和損失函式形式較為簡單時,上面的誤差最小化問題的解可以直接用公式表達出來。這類解叫作解析解(analytical solution)。本節使用的線性回歸和平方誤差剛好屬於這個範疇。然而,大多數深度學習模型並沒有解析解,只能通過優化演算法有限次迭代模型引數來盡可能降低損失函式的值。這類解叫作數值解(numerical solution)。

在求數值解的優化演算法中,小批量隨機梯度下降(mini-batch stochastic gradient descent)在深度學習中被廣泛使用。它的演算法很簡單:先選取一組模型引數的初始值,如隨機選取;接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由固定數目訓練資料樣本所組成的小批量(mini-batch),然後求小批量中資料樣本的平均損失有關模型引數的導數(梯度),最後用此結果與預先設定的乙個正數的乘積作為模型引數在本次迭代的減小量。

總結一下,優化函式的有以下兩個步驟:

(i)初始化模型引數,一般來說使用隨機初始化;

(ii)我們在資料上迭代多次,通過在負梯度方向移動引數來更新每個引數。

向量計算

在模型訓練或**時,我們常常會同時處理多個資料樣本並用到向量計算。在介紹線性回歸的向量計算表示式之前,讓我們先考慮對兩個向量相加的兩種方法。

向量相加的一種方法是,將這兩個向量按元素逐一做標量加法。

向量相加的另一種方法是,將這兩個向量直接做向量加法。

DataWhale學習 線性回歸任務一

machine learning類似與泛函,通過輸入資料找到乙個goodness of function,從而pick the best function 中心極限定理 中心極限定理指的是給定乙個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。然後把這 m 組抽樣分別求出平均...

DATAWHALE線性回歸梳理

1 有監督和無監督學習是機器學習的常用辦法。有監督就是通過已有的一些資料輸入和輸出的關係,去得到乙個模型 該模型相當於乙個函式,將所有的輸入對映為相應的輸出,從而達到分類的目的 無監督 直接對資料進行建模,得到相似的一類,如聚類。那哪種情況下採用監督學習或無監督學習呢?我想最簡單的一種方法就是根據定...

Datawhale組隊學習Pandas

下面直接展示內聯 片。備註內容為學習後的感想與總結 author xuxt time 2020 12 14l def my func x return 2 x for i in range 5 l.my func i print l 定義 我的函式 輸入x,返回,2x,即輸入1,2,3,4,5可以得...