回歸和擬合:
一、回歸:
研究乙個隨機變數y對另乙個(x)或一組(x1,x2,…,xk)變數的相依關係的統計分析方法。
應用回歸**法時應首先確定變數之間是否存在相關關係。如果變數之間不存在相關關係,對這些變數應用回歸**法就會得出錯誤的結果。
二、擬合
所謂擬合是指已知某函式的若干離散函式值,通過調整該函式中若干待定係數f(λ1,λ2,…,λn),使得該函式與已知點集的差別(最小二乘意義)最小.
三、幫助理解的一些觀點:
1、擬合是一種資料處理的方式。簡單的說就是你有一組資料,覺得這組資料和乙個已知的函式(這個函式的引數未定)很相似,為了得到最能表示這組資料特徵的這個函式,通過擬合這種方式(具體的數學方法很多)求得引數。
而回歸是一種特定的數學方法,它可以實現資料擬合,得到函式的引數。
2、它告訴我們擬合側重於調整曲線的引數,使得與資料相符。
而回歸重在研究兩個變數或多個變數之間的關係。它可以用擬合的手法來研究兩個變數的關係,以及出現的誤差。
歸一化和標準化
一、歸一化:
1、把數變為(0,1)之間的小數
主要是為了資料處理方便提出來的,把資料對映到0~1範圍之內處理,更加便捷快速。
2、把有量綱表示式變為無量綱表示式
歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。
3、對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。
好處:(1)提高迭代求解的收斂速度
(2)提高迭代求解的精度
二、標準化
1、資料的標準化是將資料按比例縮放,使之落入乙個小的特定區間。由於信用指標體系的各個指標度量單位是不同的,為了能夠將指標參與評價計算,需要對指標進行規範化處理,通過函式變換將其數值對映到某個數值區間。
2、標準化表示的是原始值與均值之間差多少個標準差,是乙個相對值,所以也有去除量綱的功效。同時,它還帶來兩個附加的好處:均值為0,標準差為1。均值為0有什麼好處?比如在去中心化的資料上做svd分解等價於在原始資料上做pca;機器學習中很多函式如sigmoid、tanh、softmax等都以0為中心左右分布(不一定對稱)。
3、標準化是為了方便資料的下一步處理,而進行的資料縮放等變換,並不是為了方便與其他資料一同處理或比較,比如資料經過零-均值標準化後,更利於使用標準正態分佈的性質,進行處理。
4、對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始資料的分布。待考究。
三、其他參考
1、歸一化與標準化:
2、資料標準化/歸一化normalization
3、標準化和歸一化什麼區別?
4、是否需要標準化/歸一化:
主要看模型是否具有伸縮不變性。
有些模型在各個維度進行不均勻伸縮後,最優解與原來不等價,例如svm。對於這樣的模型,除非本來各維資料的分布範圍就比較接近,否則必須進行標準化,以免模型引數被分布範圍較大或較小的資料dominate。
歸一化和標準化
主要是讀了這篇文章才深入理解這兩個的區別 歸一化 對原始資料進行線性轉換到 0,1 區間,如下 最小值和最大值特別容易受異常值影響,因此魯棒性不好,比較適合傳統的小資料場景 標準化 最常用的方法是z score標準化,即將資料轉化成均值為0,標準差為1,處理方法如下 其中理論解釋 歸一化的依據非常簡...
標準化 和 歸一化
1 把數變為 0,1 之間的小數 主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。2 把有量綱表示式變為無量綱表示式 歸一化是一種簡化計算的方式,即將有量綱的表示式,經過變換,化為無量綱的表示式,成為純量。好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能...
標準化和歸一化
歸一化 0 1 normalization min max normalization 把數變為 0,1 之間的小數,特徵資料範圍不同歸一化後方便統一處理 這種方法有乙個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義 z score 標準化 zero mean normaliz...