結束現在這個資料**的時代,何種資料充斥這我們的生活,我們可以在這些資料中後的有用的資訊,比如:我們想買個房子之前會參考相同型別小區房屋面積,位置,樓層,戶型等多個因素,以此估計乙個心理價位。這是我們人腦的活動,同樣可以把這個過程用電腦轉化為乙個模型(函式或者關係)以此來**房價。
與此相似,有很多應用:股價,天氣等。
線性回歸在我看來就是通過大量資料擬合(猜、**)的乙個函式,
比如說哈,我們可以通過乙個小區的大量房屋資料,擬合出乙個房價與面積,位置,樓層,戶型等多個因素之間的關係函式,房價就是因變數y,面積是自變數x1,位置是自變數x2,樓層是自變數x3,戶型是自變數x4。而每個自變數對**的影響又各不相同,所以在x前邊得加上各自的權重θ。所以由此公式
而房價y可能與x不是一次方的關係,可能是多階。所以可以得到
這樣便推導出了房價關於各自變數的關係函式,是乙個矩陣的形式,
只要求出權重θ也就求出了這個模型。
權重θ是模型構建的關鍵,優秀的權重θ才可以正確的作出**現在不管矩陣,這就是乙個一次函式的形式,結果就是我們**的房價。如果**的房價和真實的房價差值越小,這個模型也就越真實。所以我們可以這樣來看求解權重θ的方式就是最小二乘法
y為真實房價,差值就可以代表估計的誤差。
但這樣如果兩套房子的差值乙個為+5,乙個為-5,加起來看整體就是誤差為0。顯然這樣是不科學的。所以進行處理,得到損失函式:
有同學會進行絕對值處理,但絕對值會有很尖銳的拐點,不符合我們自然界規律。所以還得是用類似尤拉距離的處理到了這兒呢,我們會發現損失函式是乙個二階函式的形式,而且開口向上。所以會有最小值也就是極小值。我們可以用高數的方法求出。
但是呢,現在背景是求**房價的準確程度,也就是類似概率的形式,所以這兒更好的思想是概率論中的最大似然估計:
先對損失函式進行矩陣處理
接著就是對大似然估計的求導,並賦值為0
此時我們的權重θ也就求出了,我們的模型構建也就完成。這只是我們構建模型思想中的乙個小原理,以後我會繼續分享多種構建模型的方法。
線性回歸,最小二乘法
回歸的定義 對於乙個點集,使用乙個函式去擬合該點集,使點集與擬合函式間的誤差最小,如果這個函式曲線是一條直線,則是線性回歸,如果曲線是二次曲線,則是二次回歸。廣義線性回歸 廣義線性模型是線性模型的擴充套件,其特點是不強行改變資料的自然度量,資料可以具有非線性和非恆定方差結構 59 主要是通過聯結函式...
線性回歸 最小二乘法(二)
上篇文章中介紹了單變數線性回歸,為什麼說時單變數呢,因為它只有單個特徵,其實在很多場景中只有單各特徵時遠遠不夠的,當存在多個特徵時,我們再使用之前的方法來求特徵係數時是非常麻煩的,需要乙個特徵係數乙個偏導式,而卻最要命的時特性的增長時及其迅猛的,幾 十 幾百 幾千 單變數線性回歸 多變數線性回歸 所...
線性回歸之最小二乘法
線性回歸是很常見的一種回歸,線性回歸可以用來 或者分類,主要解決線性問題。線性回歸過程主要解決的就是如何通過樣本來獲取最佳的擬合線。最常用的方法便是最小二乘法,它是一種數學優化技術,它通過最小化誤差的平方和尋找資料的最佳函式匹配。假設擬合直線為y ax b 對任意樣本點 x i,yi 誤差為e yi...