Linear Regression 線性回歸

2022-07-21 15:51:22 字數 2716 閱讀 2083

收集到某一地區的房子面積和房價的資料(x, y)42組,對於一套已知面積的房子**其房價?

由房價資料視覺化圖可以看出,可以使用一條直線擬合房價。通過這種假設得到的**值和真實值比較接近。

將現實的問題通過數學模型描述出來。

m 個 樣本(example)組成訓練集(training set),每乙個樣本有n個特徵(feature)和乙個標籤(label)。目的是,通過乙個數學模型(algorithm)和引數(parameters)將每乙個樣本和標籤對映。這樣,給定乙個未知的樣本就可以通過建立的數學模型**其標籤。

引數解釋

m樣例數 training set

n特徵數 no. of features

x(m*(n+1))

y (m*1)

\(\theta\)

((n+1)*1) \(x\theta=y\)

假設房價由此方程擬合

\[h_\theta(x) = \theta_0+\theta_1x\]

其中\(\theta_0\)為偏置bias,\(\theta_1\)為因變數的權重weight

需要乙個函式評價擬合函式的**效果如何。直觀的,我們可以計算真實房價和**房價的差值平方和j,j越小**效果越好。所以,可以通過最小化j可以求出引數\(\theta_0\)和\(\theta_1\)的值。

\[j(\theta_0,\theta_1)=\frac 1 \sum_^m(h_\theta(x^)-y^)^2\]

這是乙個二元函式求極值的問題。可以使用求偏導的方法找出所有極值點,然後代入損失函式求出最小值。一般的做法是採用梯度下降法。梯度下降選擇乙個係數alpha,和迭代次數。

repeat until convergence \sum_^m(h_\theta(x^)-y^)\]

\[\theta_1 := \theta_1 - \alpha\frac 1 \sum_^m(h_\theta(x^)-y^)\cdot}\]

}下圖是二維梯度下降視覺化

通過這種方式可以得出假設的引數。對於已知房子面積的房子就可以使用假設估計房價了。值得一提的是**的房價不可能是100%準確,但是可以認為是在給定條件下最接近真實房價的值。

注意,梯度下降求的的只是極值點,有可能陷入區域性最優,但是對於凸函式,極值點就是最值點,因為極值點只有乙個。

更一般的情況是房價可能由多種因素綜合決定,像房子年齡,臥室數目和樓層數。

這時hypothesis變為

\[h_\theta = \theta_0 + \theta_1x_1 + \cdots + \theta_nx_n\]

cost function變為

\[j(\theta_0,\theta_1, \cdots ,\theta_n)=\frac 1 \sum_^m(h_\theta(x^)-y^)^2\]gradient descent變為

\[\theta_j := \theta_j - \alpha\frac 1 \sum_^m(h_\theta(x^)-y^)\cdot_j}\]

注意使用feature scaling將不同範圍的特徵對映到相近的範圍。

更一般的情況是房價和面積是如下圖的關係。解決方法轉化為多元線性回歸。

在這種情況下,一種可能是選擇以下特徵

\[x_1=size,x_2=(size)^2\]

hypothesis

\[h_\theta(x)=\theta_0+\theta_1(size)+\theta_2(size)^2\]

即為\[h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2\]

通過這種方法就可以轉換為多元線性回歸問題。

使用多元函式求極值的方法。只是以向量的方式表示。

當除了使用梯度下降外,還可以使用normal equation求引數。

解得 \[\theta=(x^tx)^x^ty\]

注意當features數多於樣本數的情況

解決辦法增加樣本數,減少特徵數,使用normalization

machine learning by andrew ng

機器學習 周志華

linear regression 線性回歸

本篇講述linear regression線性回歸模型。參考資料為 在所有討論之前,我們先把linear regression線性回歸的模型畫出來吧,給大家乙個直觀的感受 圖0.linear regression線性回歸模型 這就是linear regression的模型了。接下來我們引入我們的問題...

線性回歸 linear regression

在機器學習中,我們一般要處理的問題就是 問題。對於離散值的 我們叫分類 classification 而對於連續值的 我們就叫做回歸 regression 而在所有機器學習模型中,最基礎也是最重要的模型就是線性模型,今天我們就說下機器學習中的線性模型。其基本形式如下 f x w 1 x1 w2 x2...

Linear Regression線性回歸

welcome to my blog 線性回歸 linear regression 是一種線性模型 linear model 它將各個特徵進行線性組合,實現對新輸入的 線性回歸可解釋性很強,因為特徵對應的權值大小直接衡量了這個特徵的重要性 設每個輸入x i都有m個特徵,每個特徵x ij對應乙個權值w...