一、學習階段可用的資料集:
1、kaggle**:
特點:大資料競賽平台/真實資料/資料量巨大
2、uci資料集**:
特點:收錄了500餘個資料集/覆蓋科學、生活、競技領域/資料量幾十萬
3、scikit-learn**:
特點:資料量較小/方便學習
二、scikit-learn工具介紹
安裝:pip install sklearn
三、scikit-learn包含的內容
四、 sklearn資料集
1、scikit-learn資料集api介紹 **
datasets.load_*()
獲取小規模資料集,資料報含在datasets裡
datasets.fetch_*(data_home=none)
2、sklearn小資料集 名稱
數量類別3特徵
4樣本數量
150每個類別數量50
名稱數量
目標類別
5-50
特徵13
樣本數量
5063、sklearn大資料集
4、sklearn資料集的使用
sklearn資料集返回值介紹
from sklearn.datasets import load_iris
# 獲取鳶尾花資料集
iris = load_iris(
)print
('鳶尾花資料集的返回值:\n'
,iris)
# 返回值是乙個繼承自字典的bunch
print
('鳶尾花的特徵值:\n'
,iris[
'data'])
print
('鳶尾花的目標值:\n'
,iris.target)
print
('鳶尾花特徵的名字:\n'
,iris.feature_names)
print
('鳶尾花目標值的名字:\n'
,iris.target_names)
print
('鳶尾花的描述:\n'
,iris.descr)
五、資料集的劃分機器學習一般的資料集會劃分為兩個部分
劃分比例:
資料集劃分api:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
defdatasets_demo()
:"""
對鳶尾花資料集的展示
:return: none
"""# 1.獲取鳶尾花資料集
iris = load_iris(
)print
('鳶尾花資料集的返回值:\n'
,iris)
# 返回值是乙個繼承自字典的bunch
print
('鳶尾花的特徵值:\n'
,iris[
'data'])
print
('鳶尾花的目標值:\n'
,iris.target)
print
('鳶尾花特徵的名字:\n'
,iris.feature_names)
print
('鳶尾花目標值的名字:\n'
,iris.target_names)
print
('鳶尾花的描述:\n'
,iris.descr)
# 2.對鳶尾花資料集進行分割
# 訓練集的特徵值x_train 測試集的特徵值 x_test 訓練集的目標值y_train 測試集的目標值y_test
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=
0.2,random_state=22)
# test_size:測試集範圍
# 這裡的random_state就是為了保證程式每次執行都分割一樣的訓練集和測試集。否則,同樣的演算法模型在不同的訓練集和測試集上的效果不一樣。
print
('訓練集的特徵值:\n'
,x_train,x_train.shape)
return
none
if __name__ =
'__main__'
: datasets_demo(
)
機器學習資料集
ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...
機器學習之k NN(學習筆記一)
原理思想 如果乙個樣本在特徵空間中的k個最相似的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。演算法過程 1 計算已知類別資料集裡面的點與當前點之間的距離 2 按照距離遞增的次序進行排序 3 選擇與當前點 待分類點 距離最小的k個點作為評判標準 4 確定前k個點中,各個點的數量,或是概率有多...
機器學習筆記 資料集分割
在模型訓練之前,要首先劃分訓練集與測試集,如何對原始資料集進行訓練集與測試集的劃分?訓練集與測試集的比例各佔多少?如何保證各自內部標籤分布平衡都會影響模型訓練的最終效果。好在r和python中有現成的資料集分割函式,避免手動寫函式導致劃分比例不合理 訓練集與測試集的樣本的結構與總體不均衡的問題。r語...