兩邊一樣,叫對稱分布(正態分佈)
右邊的資料比左邊的資料離散,叫右偏分布(正偏態)
左邊的資料比右邊的資料離散,叫左偏分布(負偏態)
偏態分布有兩個特點:
它有兩個特點:
一是左右不對稱(即所謂偏態);
二是當樣本增大時,其均數趨向正態分佈。
skewness偏度:對於右偏分布,偏度為負;對於左偏分布,偏度為正。對稱分布,偏度為0
kurtosis峰值:是對sample構成的分布的峰值是否突兀或是平坦的描述。計算時間序列x的峰度,峰度用於度量x偏離某分布的情況,正態分佈的峰度為3。當時間序列的曲線峰值比正態分佈的高時,峰度大於3;當比正態分佈的低時,峰度小於3。
相關係數
皮爾森相關係數(pearson correlation coefficient)也稱皮爾森積矩相關係數(pearson product-moment correlation coefficient) ,是一種線性相關係數。皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變數的觀測值和均值。r描述的是兩個變數間線性相關強弱的程度。r的絕對值越大表明相關性越強。
兩變項間的相關可以用許多統計值來測量,最常用的是皮爾森相關係數。
spearman相關係數:對不服從正態分佈的資料、原始資料等級資料、一側開口資料、總體分布型別未知的資料不符合使用積矩相關係數來描述關聯性。此時可採用秩相關(rank correlation),也稱等級相關,來描述兩個變數之間的關聯程度與方向。
自相關係數 偏自相關係數理解
用來測量當前序列值與過去序列值之間的相關性,並指示 將來序列值時最有用的過去序列值。自相關函式 acf 延遲為 k 時,這是相距 k 個時間間隔的序列值之間的相關性。偏自相關函式 pacf 延遲為 k 時,這是相距 k 個時間間隔的序列值之間的相關性,同時考慮了間隔之間的值。截尾是指時間序列的自相關...
皮爾森相關係數 皮爾森相關係數的計算
在 變數關係大揭秘 一 我們提到了皮爾森相關係數r 先來兩個散點圖,左圖中x和y不相關,右圖中x和y高度正相關,差別在哪?讓我們在左右兩圖各畫乙個 田 字,田 字中心的座標是 x的平均值,y的平均值 比較左右兩圖,我們知道 當散點在a b c d均勻分布,x和y不相關 當a和c的點越多,並且b和d的...
模型的自相關係數計算 自相關係數和偏相關係數
我們知道在時間序列分析中,常用的模型有arma ar和ma模型。建立模型的前期,需要確定階數,例如ar p 模型的引數p。這時就需要根據時間序列的acf和pacf函式值來確定,然後建立模型,最後需要檢驗模型的效果。注意 模型的acf是根據定義求值然後建立acf圖,再確定階數。公式1 k是間隔的階數 ...