001檢視前10行資料
from pandas import read_csv
# 03.採用pandas 匯入資料
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin','test','mess','pedi','age','class']
data = read_csv(filename,names=names)
print(data.shape)
#001檢視前10行資料
peek = data.head(10)
print(peek)
002.sahpe 屬性檢視資料維度:多少行多少列
from pandas import read_csv
# 002.sahpe 屬性檢視資料維度:多少行多少列
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin','test','mess','pedi','age','class']
data = read_csv(filename,names=names)
print(data.shape)
003.type 屬性檢視資料型別:int,float
from pandas import read_csv
# 003.type 屬性檢視資料型別:int,float
004.describe() 方法檢視統計內容的描述: max,min,etc.
from pandas import read_csv
# 004.describe() 方法檢視統計內容的描述: max,min,etc
005.檢視資料分類分布狀況 groupby().class()
from pandas import read_csv
# 005.檢視資料分類分布狀況 groupby().class()
006.corr()方法——計算屬性相互影響的矩陣
from pandas import read_csv
from pandas import set_option
# 006.corr()方法——計算屬性相互影響的矩陣
# 顯示資料相關性
filename = 'pima_indians.csv'
names = ['preg','plas','pres','skin','test','mess','pedi','age','class']
data = read_csv(filename,names=names)
set_option("display.width",100)
#設定資料的精度
007.計算資料的正態分佈偏離程度
from pandas import read_csv
# 007.計算資料的正態分佈偏離程度
機器學習之資料探索 資料特徵分析(分布分析)
資料特徵分析與資料質量分析一道構成資料探索的兩方面工作,在前文中介紹過關於資料質量分析的概況,本文將對資料特徵分析作簡介,並著重於分布分析的角度,相比於資料質量分析,資料特徵分析更注重於找尋資料間的關係。資料特徵分析包括以下幾個分析角度 1 分布分析 2 對比分析 3 統計量分析 4 帕累託分析 5...
機器學習 資料特徵預處理
資料的特徵預處理 數值型資料 標準縮放 歸一化 標準化 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 歸一化處理 統計人覺得幾個特徵同等重要時,要用歸一化 目的 使得乙個特徵不會對最終結果不會造成更大影響 特點 通過對原始資料進行變換,把資料對映到 預設 0,1 之間 公式 x x ...
機器學習 資料特徵預處理
通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料 數值型資料 標準縮放 1 歸一化 2 標準化 3 缺失值 類別型資料 one hot編碼 時間型別 時間的切分 sklearn特徵處理api sklean.preprocessing 特點 通過對原始資料進行變化把資料對映到 預設為 0,1...