鳶尾花 Iris 資料集

2021-10-06 15:33:57 字數 3190 閱讀 1137

2. pandas庫基礎操作

3. 資料視覺化

tf.keras.utils.get_file(fname,origin,cache_dir)
引數

說明fname

origin

檔案的url位址

cache_dir

train_url=

""train_path=tf.keras.utils.get_file(

"iris_training.csv"

,train_url)

iris_training.csv訓練資料集,120條樣本資料;iris_test.csv測試資料集,30條資料。本文只用到訓練資料集,其中有花萼長度(sepal length)、花萼寬度(sepal width)、花瓣長度(petal length)、花瓣寬度(petal width)四個屬性。標籤0、1、2分別表示山鳶尾(setosa)、變色鳶尾(versicolor)、維吉尼亞鳶尾(virginical)。

train_url.split("/")    #表示以 / 作分隔符
train_url=

""train_path=tf.keras.utils.get_file(train_url.split(

'/')[-

1],train_url)

用於資料統計和分析、可以高效、方便地操作大型資料集。

import pandas as pd
#檔名引數

pd.read_csv(filepath_or_buffer,header,names) #header=0(預設)設定第一行資料作為列標題,header=none表示沒有列標題

column_names=

['sepallength'

,'sepalwidth'

,'petallength'

,'species'

]df_iris=pd.read_csv(train_path,header=

0,names=column_names)

df_iris.head(

)#讀取前n行資料,引數為空時,預設讀取而是為資料表中的前5行資料

輸出結果如下:

)輸出結果如下:

)#轉化為numpy陣列後,可以利用索引和切片訪問陣列元素,比如iris[0:6]表示讀取前6行資料,iris[0:6,0:4]表示讀取前6行資料的前4列。

迴圈輸出所有屬性關係圖

import tensorflow as tf

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

train_url=

""train_path=tf.keras.utils.get_file(train_url.split(

'/')[-

1],train_url)

column_names=

['sepallength'

,'sepalwidth'

,'petallength'

,'petalwidth'

,'species'

]df_iris=pd.read_csv(train_path,header=

0,names=column_names)

iris=np.array(df_iris)

fig=plt.figure(

'iris data'

,figsize=(15

,15))

plt.suptitle(

"andreson's iris dara set\n(blue->setosa|red->versicolor|green->virginical)"

)for i in

range(4

):for j in

range(4

):plt.subplot(4,

4,4*i+

(j+1))

if(i==j)

: plt.text(

0.3,

0.4,column_names[i]

,fontsize=15)

else

: plt.scatter(iris[

:,j]

,iris[

:,i]

,c=iris[:,

4],cmap=

'brg')if

(i==0)

: plt.title(column_names[j])if

(j==0)

: plt.ylabel(column_names[i]

)plt.show(

)

輸出結果如下:

鳶尾花資料集

from sklearn import datasets iris datasets.load iris iris是乙個字典集keys iris.keys dict keys data target target names descr feature names data iris.data.sh...

邏輯回歸 鳶尾花資料集

import numpy as np import pandas as pd data pd.read csv iris.csv 去掉不需要的列 data.drop id axis 1,inplace true data.drop duplicates inplace true 實現對映操作 dat...

kNN處理鳶尾花資料集

knn k nearest neighbor 演算法是機器學習中最基礎入門,也是最常用的演算法之一,可以解決大多數分類與回歸問題。這裡以鳶尾花資料集為例,討論分類問題中的 knn 的思想。鳶尾花資料集內包含 3 類共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵 花萼長度 sepa...