資料理解常用函式

2021-09-20 07:24:55 字數 662 閱讀 9402

1、資料的相關性

通常用來計算兩個屬性的相關性的方法是皮爾遜相關係數,介於-1~1之間。通過dataframe的corr()方法來計算資料相關性,如果資料屬性之間關聯性過高,則進行降維處理。

from pandas import read_csv

filename='iris.csv'

names=['separ-length','separ-width','petal-length','petal-width','class']

dataset=read_csv(filename,names=names)

print(dataset.corr(method='pearson'))

2資料分布分析

使用dataframe的skew()方法來計算所有資料屬性的高斯分布偏離情況

from pandas import read_csv

filename='iris.csv'

names=['separ-length','separ-width','petal-length','petal-width','class']

dataset=read_csv(filename,names=names)

print(dataset.skew())

資料理解和預處理

一 資料理解 很重要!關係到如何分析與挖掘資料 二 變數型別 1.名義變數 無順序程度的差別,如 安卓與ios 動作片與愛情片 2.定序變數 有一定程度的排序,如 優良差 教育程度 小學 初中 高中 大學及以上 如何處理?從模型角度,有的處理模型可直接處理分類變數,如決策樹,但對於其他模型,就需要對...

mysql覆蓋資料 理解MySQL資料庫覆蓋索引

話說有這麼乙個表 create table user group id int 11 not nullauto increment,uid int 11 not null,group id int 11 not null,primary key id key uid uid key group id...

大資料理論

最小的基本單位是 bit,按順序給出所有單位 bit byte kb mb gb tb pb eb zb yb bb nb db。特徵容量 volume 資料的大小決定所考慮的資料的價值和 潛在的資訊 種類 variety 資料型別的多樣性 速度 velocity 指獲得資料的速度 可變性 vari...