(1)分類,擬合,回歸的區別?
前幾天用到了matlab中的多項式擬合函式和線性回歸函式,然後發現有些概念和我理解的不一樣。我就把我對這三個概念的理解說一下。
分類:在之前兩講中講的演算法pla和樸素貝葉斯都是用來解決分類問題的。在二分類中,y=+1或-1。分類問題是找到乙個最好的超平面將不同的樣本分開。
回歸:回歸問題的輸出y不只是侷限在+1或者-1中,通常y可以取整個實數空間的任意值。在這裡我們要做的事情和分類問題要做的事情就不一樣了,我們要根據樣本的特徵去**這個樣本的y是多少(不只是侷限在+1和-1)。 回歸問題是找到乙個超平面盡量將所有的樣本落在這個超平面上。
擬合:我覺得擬合就是回歸的簡化,當樣本的特徵只有1維時,也就是在二維xy座標系下,這個回歸問題也就稱為擬合問題。在matlab中多項式擬合函式只能對樣本特徵為一維的資料進行擬合,而回歸函式是可以處理樣本特徵為多維的資料。
(2)線性回歸初步理解
在前面我們已經講了pla,通過pla可以學習到乙個超平面(在二維座標系下是一條直線),通過判斷樣本是在這個超平面的上方還是下方去**樣本的類別。
線性回歸同樣也是學習到乙個超平面,不過這個超平面的作用和pla的作用有所不同。線性回歸中的超平面不是將樣本區分開的,而是要盡量使樣本落在這個超平面上。
通過下面這兩幅圖,可以直觀的看出線性回歸是怎麼回事。(為了方便視覺化,我們限定在二維座標系下)
線性分類:
線性回歸:
線性回歸很簡單,不過正是這些很簡單機器學習演算法,在最開始的時候讓我們對整個機器學習的過程有了個大概的了解。
線性回歸的目標就是找到乙個超平面使樣本盡量集中在超平面周圍(離超平面的距離盡量近)。
沿用之前學習理論的知識,接下來需要找到乙個超平面h(
x)=w
x (這裡仍然沿用pla的書寫習慣將常數項寫進w中)使ei
n≈0以
及eou
t≈ei
n ei
n≈0
(y**
−y真實
)2。
接下來就是怎麼令ei
n≈0
ein=
1n∑n
n=1(
h(xn
)−yn
)2注:這裡n是訓練集的大小,(x
n,yn
)是訓練
樣本,h(x
n)是x
n根據超
平面**
的y值,
我們通過使右式最小化進而就可以使ei
n≈0
ein
xtx 可逆不可逆。
tx可逆時,直接可以求出xt
x 的逆。 當x
tx不可逆時,有很多現成的軟體可以直接求出來xt
x 的逆的估計值,稱作pseudo-inverse(偽逆)。
根據梯度算出來w,就找到了那個超平面,線性回歸就結束了。真的就這麼簡單。
這是在機器學習中極少的幾個可以直接進行求導就可以求出全域性最優解的模型。
在2中說了,線性回歸保證了ei
n≈0
eout
≈ein
eout≈ei
n eo
ut和e
in
機器學習(4) 多元線性回歸
乙個唯一的因變數和多個自變數 之間的關係 這裡自變數在處理之前不僅僅是數值型 上圖 我們要做的也就是,尋找到最佳的b0 b1 bn 這裡有關於50個公司的資料 spend1 2 3代表了公司在某三個方面的花銷,state是公司的的位址,profit則是公司去年的收入。現在要選擇目標公司,要求績效最好...
機器學習4 邏輯回歸與線性回歸
1 model 2 loss function 線性回歸損失函式由均方差來衡量 邏輯回歸由交叉熵衡量。邏輯回歸的loss function由training data來決定,模型需確保training data分類正確率最大,假設training data為 求上述概率公式最大化即可得到模型引數。這...
機器學習 線性回歸
可以說基本上是機器學習中最簡單的模型了,但是實際上其地位很重要 計算簡單 效果不錯,在很多其他演算法中也可以看到用lr作為一部分 先來看乙個小例子,給乙個 線性回歸是什麼 的概念。圖來自 2 假設有乙個房屋銷售的資料如下 面積 m 2 銷售價錢 萬元 123 250 150 320 87 160 1...