不管是學習機器學習、計量經濟學、數理統計,很多人接觸到的第乙個演算法就是最小二乘法(least squares method)。
這是乙個非常古老的方法。早在18世紀早期,在天文學和航海領域就已經出現了最小二乘法的思想。真正意義上第乙個正式發表該方法是在2023年的法國科學家legendre,而數學王子gauss據說在更早時候就發現了該方法,但直到2023年他在發表計算天體運動軌道時才正式使用,兩人也為誰是第乙個發現的爭論不休。
做ols回歸是為了什麼?簡而言之,在假設了資料生成過程y=β
′x+ε
y=\beta' x+\varepsilon
y=β′x+
ε並收集到一系列(x,
y)
(x,y)
(x,y
)的資料之後,我們可以做的事情有3個,這也是我們學習ols回歸的路線:
首先,我們先利用資料得到點估計β
^\hat
β^,由此還可以得到它的一系列性質,然後,可以通過計算如r
2r^2
r2等一系列指標來說明擬合得如何,最後,在得到區間估計後,可以對預先的有關於係數的假設進行假設檢驗。
在使用ols回歸之後,可以得到
β ^=
(x′x
)−1x
′y
\hat\beta=(x'x)^x'y
β^=(x
′x)−
1x′y
這就是係數的點估計,可以看下它有什麼樣的性質。
首先,它是y
yy的線性組合,具有線性性,另外,在施加一些假設後,它的條件期望是對係數的無偏估計,即e(β
^∣x)
=β
\mathbb(\hat\beta|x)=\beta
e(β^∣
x)=β
,而它的方差則由gauss-markov定理保證了是最小的,這就是「blue」(best linear unbiased estimator)。
對於擬合優度,基礎的指標有中心化或非中心化r
2r^2
r2。而對於模型的選擇來說,如果用r
2r^2
r2作為模型選擇的標準,則很明顯,加入的自變數越多,r
2r^2
r2就會越高,因此需要用其他的指標。如aic(akaike information crierion)、bic(bayesian information crierion)、調整r
2r^2
r2即r ˉ2
\bar^2
rˉ2等,都可以來選擇模型。
若假設ε∣x
∼n(0
,σ2i
)\varepsilon|x\sim n(0,\sigma^2 i)
ε∣x∼n(
0,σ2
i)(其中σ
\sigma
σ未知),則β
^\hat
β^也相應地服從正態分佈,因此可以得到它的區間估計。但得到它的區間估計並不是我們的最終目的,我們的最終目的是要檢驗如rβ=
rr\beta=r
rβ=r
(其中r
rr為j×k
j\times k
j×k矩陣)這樣的假設是否成立。
由統計學知識可知,可構造出這樣的二次型
( rβ
^−r)
′(⋅)
(rβ^
−r)σ
2∣x∼
χj
2\dfrac|x \sim \chi^2_j
σ2(rβ^
−r)
′(⋅)
(rβ^
−r)
∣x∼
χj2
上式雖然可以證明它服從χ
2\chi^2
χ2分布,但左側的σ
2\sigma^2
σ2我們卻不知道,因此我們無法利用上式構造統計量。
乙個解決辦法是用s2=
1n−k
e′
es^2=\dfrace'e
s2=n−k
1e′
e估計σ
2\sigma^2
σ2,可以證明,這樣估計是無偏的,即e(s
2∣x)
=σ
2\mathbb(s^2|x)=\sigma^2
e(s2∣x
)=σ2
,且滿足
( n−
k)s2
σ2∣x
∼χn−
k2
\dfrac|x\sim \chi^2_
σ2(n−k
)s2
∣x∼χ
n−k2
和s2⊥
⊥β
^∣
xs^2 \perp \!\!\!\!\!\!\! \perp \hat |x
s2⊥⊥β^
∣x因此,我們可以構造乙個f
ff統計量進行檢驗:
f ≡(
rβ^−
r)′(
⋅)(r
β^−r
)/js
2∼fj
,n−k
f\equiv \dfrac\sim f_
f≡s2(r
β^−
r)′(
⋅)(r
β^−
r)/j
∼fj
,n−k
這樣可以聯合檢驗有關係數的j
jj個線性假設,只需將假設寫成rβ=
rr\beta=r
rβ=r
的形式即可。若只需檢驗乙個假設,即j=1
j=1j=
1,則因f1,
q∼tq
2f_\sim t^2_q
f1,q∼
tq2
,故統計量可化為t
tt分布,直接進行t
tt檢驗即可。
小樣本學習
眾所周知,深度學習是機器學習發展中乙個非常重要的里程碑,在很多任務上深度學習都取得了巨大的成功。然而,由於深度模型包含的引數很多,通常需要大量的有標籤的資料才能進行模型訓練,這點嚴重地限制了它的應用 在很多場景下,收集大量的有標籤的資料是非常昂貴 困難 甚至不可能的,比如醫療資料 手機上使用者手動標...
小樣本學習 few shot learning
首先需要宣告的是,小樣本學習屬於遷移學習。接著,舉個例子詳細闡述。人類從未見到過 澳大利亞的鴨嘴獸 給我們一張鴨嘴獸的 後,人類就認識了!有的朋友可能會想,為什麼我們人類總是能快速的學習到未知的事物?簡單的說,是因為人類生活中各種知識的積累以及人類天生的思考能力 如 模擬能力 知識的積累意味著我們是...
小樣本點雲深度學習庫 小樣本學習 二
我對小樣本學習的誤解與困惑 我們的 小樣本 真的很小嗎?我們似乎習慣性的拿深度學習的大量資料集訓練,與人類嬰兒做對比。並藉此來嘲諷ai you are not as good as me,you are loser.但,最近的一些不連貫的思考,使我開始反思,我們人類小樣本真的比機器學習與深度學習小嗎...