最小二乘法是常見的構造代價函式, 擬合引數的方法,如下:
cost=(h(x)-y)^2
這裡**最小二乘的概率依據。
乙個簡單的例子:
假設乙個袋子裡有無限個球,白球出現的比例是p,黑球為1-p。
那麼我從中取10個球,得到了7個白球,很自然的,我們會估計白球出現的比例p=0.7;
繼續,我們取100個球,得到了75個白球,我們會繼續估計p=0.75。
也就是,我們通過觀察到的事件,反過來推其中的概率分布。
現在給定乙個分布d,假設其概率密度函式為f(d),其中有引數sita。我們從中取樣得到樣本x1,x2,…,xn,但是並不知道引數sita。那麼我們希望通過這些觀測值xi,反過來推導出最有可能的sita。
按照概率密度函式,寫出事件(x1,x2,…,xn)出現的聯合概率:
其中引數sita未知。
我們可以基於這樣乙個假設:真實的sita會使得如上的事件(x1,x2,…xn)發生的概率最大。
於是,我們把sita當做未知數,得到乙個最優化問題:
max(p(x1,x2,…,xn))。
最終得到的sita就是我們對於未知引數的估計,也就是最大釋然估計。
在上述的最大釋然方法中,我們需要事先知道,或者假設樣本處於某種分布,只是其中的引數未知。
這裡我們也可以假設y屬於某個分布,得到其概率密度函式。因為我們已有許多觀察值(y1,y2,…,yn),再套用上面最大釋然的方法,可以求得其中的未知引數。
其中,e滿足高斯分布:
那麼y也就滿足高斯分布:
現在概率分布假設寫出來了,直接套用最大釋然的方法,得到:
最大化如上的最大釋然函式,也就是最大化其中的
當我們假設y滿足高斯分布時,使用最小二乘法,也就等於使用最大釋然法,其具備合理的概率解釋。
線性回歸 最小二乘與嶺回歸的概率論解釋
背景 考慮乙個多項式擬合問題,如下圖,綠線的方程是sin 2 x sin 2 x 藍點是由綠線並加上噪音 這些噪音是預設符合正態分佈的 生成。已知條件是由nn個點構成的訓練集x x1,xn tx x1,xn t,以及這些點對應的目標值t t1,tn tt t1,tn t。現在的目標是 根據藍點來擬合...
sklearn 最小二乘線性回歸
sklearn是機器學習中的乙個常用的python第三方模組,裡面對機器學習的許多方法進行了封裝,在進行機器學習的任務時,許多常用的演算法可在這個模組中直接呼叫。並且sklearn中還提供了許多可用於分類 回歸的優質資料集。使用好sklearn最直接的方法就是仔細閱讀官方 sklearn就像是乙個模...
線性回歸 最小二乘 diabetes
資料集 特徵 age 年齡 性別 bmi 體質指數 bp 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 標籤 value 一年後疾病進展的量化指標 一 載入庫 import numpy as np import pandas as pd from sklearn import dat...