相關性是量化不同因素間變動狀況一致程度的重要指標。在樣本資料降維(通過消元減少降低模型複雜度,提高模型泛化能力)、缺失值估計、異常值修正方面發揮著極其重要的作用,是機器學習樣本資料預處理的核心工具。
樣本因素之間相關程度的量化使用相關係數corr,這是乙個取之在[-1,1]之間的數值型,corr的絕對值越大,不同因素之間的相關程度越高——負值表示負相關(因素的值呈反方向變化),正值表示正相關(因素的值呈同方向變化)。
樣本資料的相關係數計算有多種演算法,最常用的是pearson相關係數,還有spearman相關係數和kendall相關係數。當涉及相關性分析的因素的標準差為0時,pearson相關係數就無法使用了,此時還可以考慮向量夾角余弦來衡量。
相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變數之間線性相關程度的量。計算公式如下:
某公司2023年季度耗電量和銷售收入如下:
試分析單位耗電量產生的銷售收入以及耗電量與銷售收入是否相關。
我們使用numpy.corrcoef()來計算兩組變數的相關係數。
主對角線的值是兩個變數的自相關係數,自然都是1,次對角線的值就是兩組資料的pearson相關係數值。我們可以看出耗電量和銷售收入正相關性還是很高的,用seaborn的回歸圖也能比較直觀的看出兩組資料的相關水平。如下圖:
spearman相關係數又稱秩相關係數,是利用兩變數的秩次大小作相關分析,對原始變數的分布不作要求,也沒有線性要求。
scipy中的spearmanr()函式可以幫助我們計算spearman相關係數。
我們構造兩組樣本資料,它們之間的非線性關係很高。我們來看一下pearson相關係數和spearman相關係數的差異。
可以看出對於非線性相關的資料,spearman相關係數要比pearson相關係數更顯著。
如下例檢視身高和體重的排名是否相關:
以下是上述資料的計算過程
整體上,我們發現體重與身高大多數情況下有較強的相關性
推薦自編課程《零基礎學python資料分析》
推薦自編簡明**分析教程(python版)
七周速學資料分析(統計學篇)
前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...
統計學 之 資料分析 常用方法盤點(三)
阿平 作者 知乎 1 判別分析 1.定義 根據已掌握的一批分類明確的樣品建立判別函式,使產生錯判的事例最少,進而對給定的乙個新樣品,判斷它來自哪個總體。2.與聚類分析區別 聚類分析的知識我們在第一部分已經提到了 統計學 x 資料分析 常用方法盤點 part.1 3.進行分類 fisher判別分析法 ...
資料分析必備的統計學(二) 假設檢驗
講完概率分布,再來講講統計學的最後乙個知識點 假設檢驗。假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。事先對總體引數或分布形式作出某種假設,然後利用樣本資訊來判斷原假設是否成立,採用邏輯上的反證法,依據統計上的小概率原理。為了更好的解釋,這裡舉個例子。假設我有一袋豆子,袋子裡有紅豆...