機器學習 07 資料特徵 分布情況

2021-09-25 15:02:29 字數 2801 閱讀 6626

001檢視前10行資料

from pandas import read_csv

# 03.採用pandas 匯入資料

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin','test','mess','pedi','age','class']

data = read_csv(filename,names=names)

print(data.shape)

#001檢視前10行資料

peek = data.head(10)

print(peek)

002.sahpe 屬性檢視資料維度:多少行多少列

from pandas import read_csv

# 002.sahpe 屬性檢視資料維度:多少行多少列

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin','test','mess','pedi','age','class']

data = read_csv(filename,names=names)

print(data.shape)

003.type 屬性檢視資料型別:int,float

from pandas import read_csv

# 003.type 屬性檢視資料型別:int,float

004.describe() 方法檢視統計內容的描述: max,min,etc.

from pandas import read_csv

# 004.describe() 方法檢視統計內容的描述: max,min,etc

005.檢視資料分類分布狀況 groupby().class()

from pandas import read_csv

# 005.檢視資料分類分布狀況 groupby().class()

006.corr()方法——計算屬性相互影響的矩陣

from pandas import read_csv

from pandas import set_option

# 006.corr()方法——計算屬性相互影響的矩陣

# 顯示資料相關性

filename = 'pima_indians.csv'

names = ['preg','plas','pres','skin','test','mess','pedi','age','class']

data = read_csv(filename,names=names)

set_option("display.width",100)

#設定資料的精度

007.計算資料的正態分佈偏離程度

from pandas import read_csv

# 007.計算資料的正態分佈偏離程度

機器學習之資料探索 資料特徵分析(分布分析)

資料特徵分析與資料質量分析一道構成資料探索的兩方面工作,在前文中介紹過關於資料質量分析的概況,本文將對資料特徵分析作簡介,並著重於分布分析的角度,相比於資料質量分析,資料特徵分析更注重於找尋資料間的關係。資料特徵分析包括以下幾個分析角度 1 分布分析 2 對比分析 3 統計量分析 4 帕累託分析 5...

機器學習 資料特徵預處理

資料的特徵預處理 數值型資料 標準縮放 歸一化 標準化 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 歸一化處理 統計人覺得幾個特徵同等重要時,要用歸一化 目的 使得乙個特徵不會對最終結果不會造成更大影響 特點 通過對原始資料進行變換,把資料對映到 預設 0,1 之間 公式 x x ...

機器學習 資料特徵預處理

通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 sklearn特徵處理api sklean.preprocessing 特點 通過對原始資料進行變化把資料對映到 預設為 0,1...