jupyter notebook 實現;
importnumpy as np
import
pandas as pd
import
matplotlib.pyplot as plt
fname = '
e:\\pythonwork\\project\\deeplearning\\task\\data\\iris.data
'with open(fname, 'r+
', encoding='
utf-8
') as f:
s = [i[:-1].split('
,') for i in
f.readlines()]
#讀取txt,逗號為分隔符
#pandas讀取資料 樣本數為各50個
names=['
slength
','swidth
','plength
','pwidth
','name']
iris = pd.dataframe(data=s, columns=names)
#刪除乙個莫名其妙的空行:
iris.dropna(axis=0, how='
any', inplace=true)
#有三種類別:
seto = iris.iloc[0:50,:]
vers = iris.iloc[50:100,:]
virg = iris.iloc[100:150,:]
seto.shape
vers.shape
#統計每個品種有多少個樣本
iris['
name
'].value_counts()
#字串型別的資料變成float(否則不能畫圖)
iris.iloc[:,:4]=iris.iloc[:,:4].astype('
float')
#畫出slength和swidth的關係圖
#按顏色不同分類 畫圖
UCI資料集使用
uci資料可以使用matlab的dlmread或textread讀取,不過,需要先將不是數字的類別用數字,比如1 2 3等替換,否則讀入不了數值,當字元了。每個資料檔案 data 包含以 屬性 值 對形式描述的很多個體樣本的記錄。對應的.info檔案包含的大量的文件資料。有些檔案generate d...
Pandas之iris資料集簡單分析
匯出iris資料集 from sklearn import datasets import pandas as np iris datas datasets.load iris iris data是乙個類似字典的物件。print iris datas.data 資料集中的資料 print iris ...
機器學習iris資料集匯入
iris資料集在模式識別研究領域應該是最知名的資料集了,有很多文章都用到這個資料集。這個資料集裡一共包括150行記錄,其中前四列為花萼長度,花萼寬度,花瓣長度,花瓣寬度等4個用於識別鳶尾花的屬性,第5列為鳶尾花的類別 包括setosa,versicolour,virginica三類 也即通過判定花萼...