今天開始將進入機器學習的回歸演算法部分,首先介紹一下回歸部分涉及到的知識點。
一、大綱
1、線性回歸
**連續值的方法。
2、logistic回歸
名曰回歸,實際上是處理分類的方法。即處理離散值,是乙個二分類的演算法。
3、softmax回歸
基於logistic回歸的一種衍生。logistic回歸只能解決二分類的問題,softmax回歸可以解決多分類的問題。
4、梯度下降
梯度下降法是高等數學中的知識點,解決的問題是:對於任意乙個目標函式,觀測當函式取得極值點時,對應的自變數是多少。
在機器學習中的運用場景是:解決代價函式取得極小值點時,引數θ的取值。
5、lasso回歸
特徵抽取、特徵選擇。
二、什麼是回歸演算法
回歸演算法是一種有監督的演算法。(有**目標)
回歸演算法是一種用來構建自變數和應變數之間關係的演算法,在機器學習中,應變數是目標值,自變數是特徵。回歸演算法最後得到的是一組特徵前的係數,使模型能夠盡可能擬合造物主公式。
三、一維到n維
1、一維模型
現在擁有一組房屋面積及其對應房價的資料( x1 =100,房子100平方公尺。)我們要**面積和**的對映關係,構建如下模型:
h(x) = θ0 + θ1x1
h(x) 為房價,x1 為房屋面積,根據大量的資料求出θ0和θ1的值,於是能夠構建出一條直線。
如果此時將測試集中的資料投入到模型中,如果模型構建的比較好,可以看到測試集中所有(面積,**)的點會均勻分布在直線的上下兩側,而且離的直線距離不會太遠 (說明方差較小) 。如果測試集中的資料大量分布在直線的上方,或離直線的距離普遍較遠,那麼說明模型質量不高,需要重新訓練。
2、二維模型
在面積的基礎上,增加房間數量這一變數( x1 =100,房子100平方公尺。x2=3,有三個房間。)
h(x) 為房價,根據大量的資料求出 θ0、 θ1、 θ2的值,於是能夠構建出乙個平面。我們要**面積、房間個數和房價的對映關係,構建如下模型:
h(x) = θ0 + θ1x1 + θ2x2
從y軸向下俯視該平面,可以獲得該平面在x1、 x2兩座標軸上的投影。同樣,由(x1、 x2)點衍生到平面上後,對應的y軸值即是對應的房價值y或記作h(x) 。
3、n維模型
如果有1個特徵,我們得到了一條直線模型。
如果有2個特徵,我們得到了乙個平面。
如果有2個以上的特徵呢?
2個特徵形成的平面,結合目標值構成了乙個三維的影象,對於更高維度的思維結構人類是無法想象出來的。
對於兩個以上特徵形成的n維模型,我們稱之為超平面(hyperplane)
模型:h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = σ θixi( i=0~n )
h(x) = θtx = [θ1,θ2,θ3,…,θn] * [x1,x2,x3,…,xn]t 即θ矩陣的轉置,乘以x的矩陣。
ps:之前提到過,所有特徵預設都是列向量,所以上面這個向量的乘法和轉置符號的位置沒有寫錯。
4、總結
線性回歸的表現形式為:h(x) = θtx
最終要求計算出 θ的值,並選擇最優的θ值構成演算法公式。
我的部落格即將入駐「雲棲社群」,誠邀技術同仁一同入駐。
機器學習(2) 回歸演算法 回歸分析
在統計學中,回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析 按照因變數的多少,可分為 簡單回歸 分析和多重回歸分析 按照 自變數和 因變數之間的關係型別,可分為 線性回歸 ...
2020 9 10 回歸 CSDN 部落格
2020 9 10 回歸 csdn 部落格,決定開始產出,思考,分享 過去在阿里雲上折騰過不少部落格框架,wordpress,hexo,hugo 想著弄成自己的個人 生活隨感,作品分享,踩坑記錄 可後來漸漸沒了更新文章的動力,寫文章,pus 章,同步github.io,一套下來費時費力 也弄過寶塔面...
機器學習8回歸問題
對於之前在分類問題中有邏輯回歸,而對於這個線性回歸以前一般是先講述,將線性回歸的結果通過函式對映到 0,1 區間,再以0.5作為區分形成分類問題。具體的計算方法,在以前的blogs提到過,參考 下面就直接實戰 跟之前一樣,第一步匯入資料。def loaddataset filename numfea...