大資料篇 回歸 擬合

2021-09-13 11:25:09 字數 834 閱讀 2664

我的理解是:所謂回歸,指的是資料之間的某種聯絡,而我們現有的幾種回歸則為我們提供了一種尋找資料聯絡的手段,我們根據現有的的一堆資料去找出某條符合我們資料(基於某種條件)的函式,而根據這條函式我們大致可以根據新資料的某些初始條件去推測該資料未來的可能性

所以回歸問題是指,給定乙個新的模式,根據訓練集推斷它所對應的輸出值(實數)是多少,是一種定量輸出,也叫連續變數**。比如**明天的氣溫是多少度,這是乙個回歸任務

利用大量的樣本d,根據建立的回歸模型,學習到由x到y的對映f ,利用該對映關係對未知的資料進行預估

單變數情況下,回歸呈現的是一條線性的關係函式

多變數情況下則開始演變為乙個在多位空間下的面狀關係函式

對於擬合的理解則是找到一種近似的函式關係,來對這些組變數的聯絡進行某種描述,進而獲得某種解釋,這與回歸有著很大程度上的相似,但與回歸不同的是,擬合是為了對資料的**進行分類,分類問題是指,給定乙個新的模式,根據訓練集推斷它所對應的類別(如:+1,-1),是一種定性輸出,也叫離散變數**,比如**明天是陰、晴還是雨,就是乙個分類任務

因為有m個樣本,所以要平均,分母的2是為了求導方便

梯度下降

求極值的數學思想,對公式求導=0即可得到極值,但是工業上計算量很大,公式很複雜,所以從計算機的角度來講,求極值是利用梯度下降法。

① 初始位置選取很重要

② 負梯度方向更新,二維情況下,函式變換最快的方向是斜率方向,多維情況下就成為梯度,梯度表示函式值增大的最快的方向,所以要在負梯度方向上進行迭代。

③參考:

線性回歸 4 欠擬合 過擬合與區域性加權線性回歸

的個 數或者x 的指數大 小來獲得 不同形狀 的擬合曲 線 看下面的圖 左邊的曲線是在假設y 0 1x時的擬合結果,但顯然中間的曲線要比左邊的擬合效果更好。我們稱左邊的情況為欠擬合 underfitting 這樣看來右邊的不是比左邊更好嗎?no!我們稱右邊的情況為過擬合 overfitting 因為...

一次線性回歸擬合 二次線性回歸擬合

器學習一次回歸和二次回歸 reshape 行,列 可以根據指定的數值將資料轉換為特定的行數和列數 reshape 1,1 之後,資料集變成了一列 採用線性回歸方程 lr linearregression lr.fit x,y from sklearn.linear model import line...

線性回歸資料 大資料演算法之多元線性回歸

多元線性回歸顧名思義,就是假設多個自變數同時對乙個因變數產生影響。其特殊情況就是一一對映,即乙個自變數對應乙個因變數。首先我們先了解一些指標。這些指標在機器學習中很常見。我偷懶,def r square score y predict,y test r 1 mse score y predict,y...