特徵相關性

2021-09-27 06:35:00 字數 1268 閱讀 1989

在主成份分析、資料探索上,經常要探索特徵與特徵、特徵與因變數之間的相關性。下面記錄幾種相關性探索的方法。

import matplotlib

import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')#設定資料視覺化主題

names = col_name.copy() # 列名

names.remove('onset_diabetes') # 移除因變數後得到特徵

這裡只放出其中乙個特徵與因變數的相關性。由圖可以看出,因變數結果「diabetes」與「non_diabetes」在特徵「plasma_glucose_concentration」的分布明顯相差很大,所以因變數「onset_diabetes」與特徵「plasma_glucose_concentration」的相關性很強。

相關係數越大,相關性越強。如上相關矩陣圖,可以看到特徵times_pregnant與特徵age的相關性最強;如果只看特徵與因變數之間關係的話,plasma_glucose_concentration與因變數的相關性最強。

這是直接列印相關係數,更準確地表達特徵與因變數之間的相關性。

spearman相關性分析 相關性分析

r語言常用函式 cor 預設結果為矩陣 cor mydat,use method use 缺失值的處理,method 處理方法 cor x,y 可以計算非方形矩陣,x y分別為2個矩陣,相同的行數 cor.test x,y,alternative method x y為檢驗相關性的變數 librar...

統計 相關性與自相關性

相關係數度量指的是兩個不同事件彼此之間的相互影響程度 而自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象的講就是度量自己過去的行為對自己現在的影響。自相關,也稱 序列相關。是乙個訊號於其自身在不同時間點的互相關。非正式地來說,它就是兩次觀察之間的相似度對它們之間的時間差的函式。它是找出重...

基因相關性

描述 為了獲知基因序列在功能和結構上的相似性,經常需要將幾條不同序列的dna進行比對,以判斷該比對的dna是否具有相關性。現比對兩條長度相同的dna序列。首先定義兩條dna序列相同位置的鹼基為乙個鹼基對,如果乙個鹼基對中的兩個鹼基相同的話,則稱為相同鹼基對。接著計算相同鹼基對佔總鹼基對數量的比例,如...