sklearn.model_selection.train_test_split隨機劃分訓練集和測試集
官網文件:
一般形式:
train_test_split是交叉驗證中常用的函式,功能是從樣本中隨機的按比例選取train_data和test_data,形式為:
x_train,x_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
cross_validatio為交叉驗證
train_data:所要劃分的樣本特徵集
train_target:所要劃分的樣本結果
test_size:樣本佔比,如果是整數的話就是樣本的數量
random_state:是隨機數的種子。
隨機數種子:其實就是該組隨機數的編號,在需要重複試驗的時候,保證得到一組一樣的隨機數。比如你每次都填1,其他引數一樣的情況下你得到的隨機數組是一樣的。但填0或不填,每次都會不一樣。
隨機數的產生取決於種子,隨機數和種子之間的關係遵從以下兩個規則:
種子不同,產生不同的隨機數;種子相同,即使例項不同也產生相同的隨機數。
import numpy as np
from sklearn.model_selection import train_test_split
x,y=np.arange(10)
.reshape((5
,2))
,range
x=np.array([[
0,1]
,[2,
3],[
4,5]
,[6,
7],[
8,9]
])y=[
0,1,
2,3,
4]print
(x)print
(y)x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=
0.33
, random_state=0)
print
(x_train)
print
(y_train)
print
(x_test)
print
(y_test)
結果為
[[0
1][2
3][4
5][6
7][8
9]][
0,1,
2,3,
4][[
23][
67][
89]]
[1,3
,4][
[45]
[01]
][2,
0]
train test split引數含義
在機器學習中,我們通常將原始資料按照比例分割為 測試集 和 訓練集 通常使用sklearn.cross validation裡的train test split模組用來分割資料。cross validation已經棄用,現在改為從 sklearn.model selection 中呼叫 train ...
用Margin還是用Padding
用margin還是用padding 何時應當使用margin 需要在border外側新增空白時。空白處不需要背景 色 時。上下相連的兩個盒子之間的空白,需要相互抵消時。如15px 20px的margin,將得到20px的空白。何時應當時用padding 需要在border內測新增空白時。空白處需要背...
用Margin還是用Padding
用margin還是用padding這個問題是每個學習css高階時的必經之路。css邊距屬性定義元素周圍的空間。通過使用單獨的屬性,可以對上 右 下 左的外邊距進行設定。也可以使用簡寫的外邊距屬性同時改變所有的外邊距。w3school 邊界 margin 元素周圍生成額外的空白區。空白區 通常是指其他...