線性相關
非線性相關
不相關資料在圖中沒有顯示任何關係,則不相關
n個資料 的平均值計算公式:
標準差表示了所有資料與平均值的平均距離,表示了資料的散度,如果標準差小,表示資料集中在平均值附近,如果標準差大則表示資料離標準差比較遠,比較分散。標準差計算公式:
x、y兩個變數組成了笛卡爾座標系中的乙個座標(x,y),這個座標標識了乙個點的位置。
各包含n個常量的x,y兩組資料在笛卡爾座標系中以n個點來進行表示。
簡單的說,就是 r=[(以標準單位表示的 x )x(以標準單位表示的 y )]的平均數
根據上面點的定義,將x、y兩組資料的關係以點的形式在笛卡爾座標系中畫出,sd線表示了經過中心點(以資料組x、y平均值為座標的點),當r>0時,斜率=x的標準差/y的標準差;當r<0時,斜率=-x的標準差/y的標準差;的直線。通常用sd線來直觀的表示資料的走向:
1、當r<0時,sd線的斜率小於0時,則說明資料負相關,即當x增大時y減少。
2、當r>0時,sd線的斜率大於0時,則說明資料正相關,此時當x增大時y增大。
3、相關係數r的範圍在[-1,1]之間,當r=0時表示資料相關係數為0(不相關)。當r=正負1時,表示資料負相關,此(x,y)點資料都在sd線上。
4、r的值越接近正負1說明(x,y)越靠攏sd線,說明資料相關性越強,r的值越接近0說明(x,y)點到sd線的散度越大(越分散),資料相關性越小。
回歸方法主要描述乙個變數如何依賴於另乙個變數。y對應於x的回歸線描述了在不同的x值下y的平均值情況,它是這些平均值的光滑形式,如果這些平均值剛好在一條直線上,則這些平均值剛好和回歸線重合。通過回歸線,我們可以通過x值來**y值(已知x值下y值的平均值)。下面是y對應於x的回歸線方程:
簡單的說,就是當x每增加1個sd,平均而言,相應的y增加r個sd。
從方程可以看出:
1、回歸線是一條經過點 ,斜率為 的直線。
2、回歸線的斜率比sd線小,當r=1或-1時,回歸線和sd線重合。
當用回歸線從x**y時,實際值與**值之間的差異叫**誤差。而均方根誤差就是**誤差的均方根。它度量回歸**的精確程度。y關於x的回歸線的均方根誤差用下面的公式進行計算:
由公式可以看出,當r越接近1或-1時,點越聚集在回歸線附近,均方根誤差越小;反之r越接近0時,點越分散,均方根誤差越大。
最小二乘法尋找一條直線來擬合所有的點,使得這條直線到所有的點之間的均方根誤差最小。可以看到,當求兩個變數之間的關係時,最小二乘法求出的直線實際上就是回歸線。只不過表述的側重點不同:
1、最小二乘法強調求出所有點的最佳擬合直線。
2、回歸線則是在sd線的基礎上求出的線,表示了樣本中已知變數x的情況下變數y的平均值。
由以上可知,乙個散點圖可以用五個統計量來描述:
1、所有點x值的平均數,描述了所有點在x軸上的中心點。
2、所有點x值的sd,描述了所有點距離x中心點的散度。
3、所有點y值的平均數,描述了所有點在y軸上的中心點。
4、所有點y值的sd,描述了所有點距離y中心點的散度。
5、相關係數r,基於標準單位,描述了所有點x值和y值之間的關係。
1、r描述了相對於標準差,點沿sd線的群集程度。
2、r說明了y的平均數如何的依賴於x --- x每增加1個x標準差,平均來說,y將只增加r個y標準差。
3、r通過均方根誤差公式,確定了回歸**的精確度。
1、x、y兩組樣本資料是線性的,如果不是線性的先要做轉換。
2、被研究的兩組樣本資料之間的關係必須有意義。
這些演算法的實現**見下面的貼子:
線性相關和線性無關
向量組 由線性空間中的有限個向量組成 可以看成乙個矩陣。線性表出 設 e 1 是域p上線性空間v中的有限個向量,若v中向量 可以表示為 k k k k p,a 1,2,e 則稱 是向量組 的乙個線性組合,亦稱 可由向量組 線性表示或線性表出。簡單的說 可以由這個向量組通過數乘相加的方式來表示就說它可...
線性相關線性無關與正交
定義 有向量組 a1,a2,a3,an若當且僅當k1 k2 k3 kn 0時k1 a1 k2 a2 k3 a3 knan 0成立,則這n個向量是線性相關的 有人要問,不是2點確定一條直線麼,那麼任意兩點可以認為在一次函式y kx b上,所以任何2點都是線性相關的。從幾何學上考慮,的確2點確定一條直線...
向量組和線性相關
向量和向量組 以下討論同樣適用於行矩陣 列矩陣素被看作空間內的乙個向量,n階列矩陣被稱為n維向量 m個n維列矩陣按順序組成的新矩陣被稱為向量組 線性表示和線性相關 當向量方程ax b有解時,稱向量b可以用向量組a線性表示,稱 xiai為向量組a的乙個線性組合 當向量組b的所有向量bi都能用a線性表示...