漫談機器學習 1 誤差最小VS概率最大(1)

2021-07-09 05:12:57 字數 1940 閱讀 3525

機器學習經常做的事情是擬合和分類 ,其中線性回歸是最簡單的機器學習問題了,因此,從線性回歸說起了,在這裡先說兩個有意思的方法,誤差最小vs概率最大,不好意思,受騙了,這絕對不是漫談,而是開始累公式了,哈哈。

現在有樣本集合:mi

=1,其中:

咱們的目標是求解模型引數,使得:yi

=θtx

i 有時候會考慮到建模誤差,因此會有這樣的形式:yi

=θtx

i+εi

,εi∈

r 為了方便計算,常常寫成矩陣的形式為: y=

θtx+

ε 其中 y=[

y1y2

⋯ym]

, x=

[x1x

2⋯xm

] , ε=

[ε1ε

2⋯εm

] 求解 的思路主要有兩種:一種是通過誤差最小的思路求解,一種是通過概率最大的思路求解(極大似然估計)。

如果不考慮誤差,那麼y=

θtx 可以求解析解即:θ^

=yx−

1 如果考慮誤差的話,那麼模型的誤差為:hθ

=12∑

i=1m

(yi−

θtxi

)2=1

2(y−

θtx)

(y−θ

tx)t

因此,目標函式為: θ^

=arg

minθhθ

毫無疑問這是乙個最優化問題了,最簡單的思路就是去偏導取零,看看能不能得到解析解。∂h

θ∂θ=

∂∂θ[

12(y

−θtx

)(y−

θtx)

t]=∂

∂θ[1

2(y−

θtx)

(yt−

xtθ)

]=∂∂

θ[12

(yyt

−yxt

θ−θt

xyt+

θtxx

tθ)]

=∂∂θ

tr[1

2(yy

t−yx

tθ−θ

txyt

+θtx

xtθ)

]=12

∂∂θt

r((y

yt))

−12∂

∂θtr

((yx

tθ))

−12∂

∂θtr

((θt

xyt)

)+12

∂∂θt

r(θt

xxtθ

)=12

∂∂θt

r(θt

xxtθ

)−∂∂

θtr(

(yxt

θ))

下面涉及兩個矩陣跡的性質:即 ∂t

r(ab

)∂a=

bt,∂

tr(a

batc

)∂a=

cab+

ctab

12∂∂θt

r(θt

xxtθ

)−∂∂

θtr(

(yxt

θ))=

12∂∂

θtr(

θθtx

xt)−

∂∂θt

r((y

xtθ)

)=12

xxtθ

+12(

xxt)

tθ−x

yt=x

xtθ−

xyt

令∂hθ∂θ=

0 , 即 xx

tθ−x

yt=0

易知:θ^

=(xx

t)−1

xyt

這就是著名的最小二乘法。解析解得到了,那麼從概率的角度考慮問題,通過極大似然估計會得到什麼樣的結果呢?

機器學習之誤差評判

開始找乙個題目來練手,這是乙個關於二手車交易 的題目,首先看一下這個題目。該資料來自某交易平台的二手車交易記錄,總資料量超過40w,包含31列變數資訊,其中15列為匿名變數。從中抽取15萬條作為訓練集,5萬條作為測試集,同時會對name model brand和regioncode等資訊進行脫敏 資...

機器學習 vs 深度學習

摘要 來看看我們分析的和您想的是否一致。本文在透徹剖析深度學習及機器學習的同時,就多方面對兩者進行比較,進而 其未來的發展趨勢。a.機器學習 機器學習是人工智慧技術的補充,有如下幾種常用演算法 find s 決策樹隨機森林演算法 神經網路 機器學習演算法通常分為以下三大類 有監督學習 需要從有標籤的...

優達(Udacity) 機器學習基礎 誤差原因

資料足夠,模型不夠複雜 過度簡化 欠擬合 結果對於任何給定的測試樣本會出現多大的變化 對訓練集高度敏感 過擬合 overfitting 可以利用sklearn中的學習曲線來辨別模型表現的好壞。引入模組 from sklearn.model selection import learning curv...