iris資料集在模式識別研究領域應該是最知名的資料集了,有很多文章都用到這個資料集。這個資料集裡一共包括150行記錄,其中前四列為花萼長度,花萼寬度,花瓣長度,花瓣寬度等4個用於識別鳶尾花的屬性,第5列為鳶尾花的類別(包括setosa,versicolour,virginica三類
)。也即通過判定花萼長度,花萼寬度,花瓣長度,花瓣寬度的尺寸大小來識別鳶尾花的類別。
一、如果從本地磁碟上讀入該資料集,可以採用pandas包裡的read_excel或者read_csv方法,也可以利用python裡面的csv包來處理。
具體如下:
import pandas as pd
data=pd.read_csv('iris.data') #iris.data資料與程式檔案存放在同一目錄下
print data.head(5) #可以檢視一下前5行資料,檢查是否讀取正確
attributes=data[['sl','sw','pl','pw']] #前四列屬性簡化為sl,sw,pl,pw
types=data['type'] #第5列屬性為鳶尾花的類別
sl sw pl pw
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
5 5.4 3.9 1.7 0.4
6 4.6 3.4 1.4 0.3
7 5.0 3.4 1.5 0.2
如果要讀取單列資料,就採用data['sl']或者data['pl'],加入列屬性值就可以。
二、如果從資料報裡匯入,直接利用sklearn包datasets模組匯入 import load_iris。如下:
from sklearn.datasets import load_iris
iris=load_iris()
attributes=iris.data #獲取屬性資料
target=iris.target #獲取類別資料,這裡注意的是已經經過了處理,target裡0、1、2分別代表三種類別
labels=irs.feature_names #獲取列屬性值
如下列印出來的屬性列資料:
[[ 5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2]
...,
[ 6.5 3. 5.2 2. ]
[ 6.2 3.4 5.4 2.3]
[ 5.9 3. 5.1 1.8]]
機器學習入門 Iris問題
iris是乙個經典的機器學習入門資料集,本片部落格將講述如何使用該資料集,用極其簡單的 來實現乙個簡單的機器學習的例子。本文適合有一丟丟python基礎的同學學習 實驗需求 安裝好anaconda 這傢伙自帶了很多科學計算的module,是機器學習必備神器 本資料集可在 檢視,當然匯入資料集並不需要...
用TensorFlow實現iris資料集線性回歸
本文將遍歷批量資料點並讓tensorflow更新斜率和y截距。這次將使用scikit learn的內建iris資料集。特別地,我們將用資料點 x值代表花瓣寬度,y值代表花瓣長度 找到最優直線。選擇這兩種特徵是因為它們具有線性關係,在後續結果中將會看到。本文將使用l2正則損失函式。用tensorflo...
鳶尾花 Iris 資料集
2.pandas庫基礎操作 3.資料視覺化 tf.keras.utils.get file fname,origin,cache dir 引數 說明fname origin 檔案的url位址 cache dir train url train path tf.keras.utils.get file...