具體看原文:點選這裡
sklearn的資料集庫datasets提供很多不同的資料集,主要包含以下幾大類:
玩具資料集
真實世界中的資料集
樣本生成器
樣本svmlight或libsvm格式的資料
從從外部載入的資料
用的比較多的就是1和3,這裡進行主要介紹,其他的會進行簡單介紹,但是不建議使用。
統計了波士頓506處房屋的13種不同特徵( 包含城鎮犯罪率、一氧化氮濃度、住宅平均房間數、到中心區域的加權距離以及自住房平均房價等 )以及房屋的**,適用於回歸任務。
from sklearn import datasets #view code導入庫boston = datasets.load_boston() #
匯入波士頓房價資料
print(boston.keys()) #
檢視鍵(屬性) ['data','target','feature_names','descr', 'filename']
print(boston.data.shape,boston.target.shape) #
檢視資料的形狀 (506, 13) (506,)
print(boston.feature_names) #
檢視有哪些特徵 這裡共13種
print(boston.descr) #
described 描述這個資料集的資訊
print(boston.filename) #
檔案路徑
這個資料集包含了150個鳶尾花樣本,對應3種鳶尾花,各50個樣本,以及它們各自對應的4種關於花外形的資料 ,適用於分類任務。
from sklearn import datasets #view code導入庫iris = datasets.load_iris() #
匯入鳶尾花資料
print(iris.data.shape,iris.target.shape) #
(150, 4) (150,)
print(iris.feature_names) #
[花萼長,花萼寬,花瓣長,花瓣寬]
還可以在sklearn\datasets_base.py檔案中檢視資訊:3類,每類50個,共150個樣本,維度(特徵)為4,特徵的數值是真實的,並且都是正數。
共有1797個樣本,每個樣本有64的元素,對應到乙個8x8畫素點組成的矩陣,每乙個值是其灰度值, target值是0-9,適用於分類任務。
sklearn劃分資料集
train test split是用得最多的資料集劃分包,它的引數有五個 arrays 要切分的資料集,通過傳入兩個,x資料集和目標y test size 測試集樣本大小 random state 隨機種子數 shuffle 是否要對資料集隨機打亂 stratify 可以理解為分層抽樣的設定值,通過...
探索sklearn的資料集 以紅酒資料集為例
剛剛使用sklearn學習機器學習進行資料分析,分享一些概念和想法,希望可以大家一起討論,如果理解或者表達有不準確的地方,請多多指點,不吝賜教,非常感謝 在sklearn.datasets庫中有非常多的知名資料集,在使用資料集前我總是對資料沒有直觀了解,所以下面整理一些datasets庫中資料集的屬...
sklearn 自帶資料集以及生成資料集
from sklearn import datasets toy datasets boston for regression x,y datasets.load boston return x y true print boston x.shape,y.shape iris for classif...