machine learning類似與泛函,通過輸入資料找到乙個goodness of function,從而pick the 「best」 function
中心極限定理:中心極限定理指的是給定乙個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分佈。
最大似然估計:
它其實是利用已知的樣本結果的資訊,反推最具有可能(最大概率)導致這些樣本結果出現的模型引數值。
極大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:「模型已定,引數未知」。可以根據模型求出引數。
正態分佈:
若隨機變數x服從乙個位置引數為μ,尺度引數為σ的正態分佈,記為x~n(μ,σ2),則其概率密度函式為
正態分佈的數學期望值或期望值μ等於位置引數,決定了分布的位置;其方差σ^2的開平方或標準差σ等於尺度引數,決定了分布的幅度。常說的標準正態分佈是指μ為0,σ為1的正態分佈。
略損失函式:在監督學習中,損失函式刻畫了模型和訓練樣本的匹配程度,即定義了模型的評估指標.
凸函式的幾何解釋:函式影象上的任意兩點確定的弦在影象的上方;
關係: 凸函式可以使用梯度下降法找到全域性最優解,損失函式需要滿足,任意點的值大於0。
乙個函式可能有多個區域性最優值,但只會有乙個全域性最優值
導數:乙個函式在某一點的導數描述了這個函式在這一點附近的變化率。
泰勒公式:泰勒公式是乙個函式在某點的資訊描述其附近取值的公式,區域性有效性。
基本形式:
一階展開:
二階展開:
// an highlighted block
import numpy as np
np.random.seed(1)
x = np.linspace(0,
10,10)
y_label =
2*x +
3def
gradient_descent
(x, y ,w, b)
: time =
0 n=
0.0001
w = np.random.randn(1,
1)b = np.random.randn(1,
1)loss = np.
sum(
(y -
(w*x + b))**
2)while
(loss>
0.01)or
(time<
10000):
graident_w = np.
sum(
(y -
(w*x + b))*
(x))
graident_b = np.
sum(y -
(w*x + b)
) w = w - n*graident_w
b = b - n*graident_b
loss = np.
sum(
(y -
(w*x + b))**
2)print
(loss)
return w, b
w_u, b_u = gradient_descent(x, y_label, w, b)
雖然l0正則優勢很明顯,但求解困難屬於np問題,因此一般情況下引入l0正則的最近凸優化l1正則(方便求解)來近似求解並同樣可實現稀疏效果
b不影響函式的平滑程度,只影響整體平移,因此b對模型的泛化能力沒有影響,但是w的權重分配最終會影響到模型的泛化能力,是模型有過擬合和前擬合的可能。
DataWhale學習筆記線性回歸
模型 線性回歸是機器學習中最為基礎和理解的模型,但很多的模型都是建立在該模型之上。在模型的構建中,線性回歸的目的是求解資料集中特徵屬性x以及類別y之間的對映關係。通過優化函式 本文採用隨機梯度下降法 降低模型 值與y之間的差別。為了簡單起見,本文對放假模型進行 這裡我們假設 只取決於房屋狀況的面積 ...
DATAWHALE線性回歸梳理
1 有監督和無監督學習是機器學習的常用辦法。有監督就是通過已有的一些資料輸入和輸出的關係,去得到乙個模型 該模型相當於乙個函式,將所有的輸入對映為相應的輸出,從而達到分類的目的 無監督 直接對資料進行建模,得到相似的一類,如聚類。那哪種情況下採用監督學習或無監督學習呢?我想最簡單的一種方法就是根據定...
回歸學習 線性回歸
匯入資料 from sklearn.datasets import load boston boston load boston print boston.descr 資料分割 from sklearn.cross validation import train test split import ...