1、協方差
協方差(covariance)在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。
期望值分別為
隨機變數
x 與y 之間的協方差定義為:
協方差表示的是兩個變數的總體的誤差,這與只表示乙個變數誤差的方差
不同。 如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值,另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中乙個大於自身的期望值,另外乙個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。
2、兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商:
上式定義了總體相關係數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的協方差和標準差,可得到樣本相關係數(樣本皮爾遜係數),常用英文小寫字母 r 代表:
資料標準化之後,(服從標準正太分布的話)夾角余弦,皮爾遜相關度是一樣的
3、卡方檢驗
這個還不是太明白數學意義,這是怎麼來的,為啥這麼算???,而且沒實際使用過。
具體介紹參考這篇部落格
協方差計算相關性問題
因為公司專案需求,我也跟著學習了機器學習方面的知識,狠狠補了一下數學知識。統計學是關於認識客觀現象總體數量特徵和數量關係的科學。它是通過蒐集 整理 分析統計資料,認識客觀現象數量規律性的方 科學,方差 標準差 均值都是統計學的基礎。均值 標準差 方差都是為了通過資料計算出樣本集合的潛在資訊,我們可通...
變數之間的相關性 協方差 相關係數
方差和標準差衡量的是乙個變數 一組資料 的離散程度,也就是變數和均值之間的偏離程度。正相關 兩個變數具有相同的變化趨勢 也稱同方向 要麼同時變大,要麼同時變小,這時協方差是正的 負相關 兩個變數具有相反的變化趨勢 也稱反方向 乙個變大,另乙個變小,這時協方差是負的 協方差描述的是兩個變數是否同時偏離...
2014 05 09 相關性檢驗
今天做空氣質素資料分析時候碰到相關性檢驗的問題。問題描述 有兩種汙染物濃度資料,怎麼判斷這兩種汙染物濃度之間是否存在相關性?正相關或負相關,即當a濃度上公升時,b的濃度同時上公升或下降?這是相關性的定義嗎?最常用,但是有潛在問題。檢驗結果為 不相關 不代表x和y之間就是相互獨立的。pearson不相...