探索sklearn的資料集 以紅酒資料集為例

2021-09-26 02:52:58 字數 1642 閱讀 7562

剛剛使用sklearn學習機器學習進行資料分析,分享一些概念和想法,希望可以大家一起討論,如果理解或者表達有不準確的地方,請多多指點,不吝賜教,非常感謝~~

在sklearn.datasets庫中有非常多的知名資料集,在使用資料集前我總是對資料沒有直觀了解,所以下面整理一些datasets庫中資料集的屬性及方法,以紅酒資料集為例。隨著學習還會持續更新!

from sklearn.datasets import load_wine

wine = load_wine(

)

資料集型別

# 檢視資料集型別

type

(wine)

# 結果 sklearn.utils.bunch

列印資料集

#這裡是sklearn.datasets庫中各個模組的方法和屬性

#將此庫中的資料例項化後,便繼承了庫中模組的功能和屬性

wine--

----

----

----

----

----

----

-# 得到乙個「字典」

# 需要注意的是,字典資料型別本身是無法直接列印字典的

分別列印資料集的鍵和值

wine.keys(

)wine.values(

)dict_keys(

['data'

,'target'

,'target_names'

,'descr'

,'feature_names'])

dict_values(..

.略..

.)

探索資料集的每一對鍵值

(1)data,資料型別是array——資料集中的資料

# 檢視"data"對應的值

wine.data # 結果 返回對應的值,資料型別為:「array」

# 檢視「data"的資料「結構」

wine.data.shape # 結果 (178, 13) 說明一共178行,13列(即資料集中有13個特徵變數)

# 對比「字典」的基本操作中,是無法直接使用:字典.鍵值 獲得其對應的值的

(2)target,資料型別是array——資料集中各個資料的標籤

(3)feature_names,資料型別是list——資料集特徵變數的名稱

直觀的觀察樣本的特徵以及標籤

# 使用pandas對資料進行視覺化表操作

import pandas as pd

# 將「樣本資料」和「標籤」按照「行向」連線起來

sample=pd.concat(

[pd.dataframe(wine.data)

,pd.dataframe(wine.target)

],axis=1)

# 展示**的頭5行資料

– 待續

sklearn學習 探索資料集的過程

sklearn中文學習文件 sklearn資料集參考 在sklearn中自帶部分資料如datasets包中,所返回的物件是sklearn.utils.bunch,這個類似於字典.屬性有 首先推薦使用jupyternotebook進行模型的搭建,這樣你可以使用快捷鍵 shift tab 檢視該函式的文...

sklearn中的資料集

具體看原文 點選這裡 sklearn的資料集庫datasets提供很多不同的資料集,主要包含以下幾大類 玩具資料集 真實世界中的資料集 樣本生成器 樣本svmlight或libsvm格式的資料 從從外部載入的資料 用的比較多的就是1和3,這裡進行主要介紹,其他的會進行簡單介紹,但是不建議使用。統計了...

sklearn劃分資料集

train test split是用得最多的資料集劃分包,它的引數有五個 arrays 要切分的資料集,通過傳入兩個,x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值,通過...