train test split用法總結

2021-10-13 22:38:54 字數 1552 閱讀 7271

sklearn.model_selection.train_test_split隨機劃分訓練集和測試集

官網文件:

一般形式:

train_test_split是交叉驗證中常用的函式,功能是從樣本中隨機的按比例選取train_data和test_data,形式為:

x_train,x_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

cross_validatio為交叉驗證

train_data:所要劃分的樣本特徵集

train_target:所要劃分的樣本結果

test_size:樣本佔比,如果是整數的話就是樣本的數量

random_state:是隨機數的種子

隨機數種子:其實就是該組隨機數的編號,在需要重複試驗的時候,保證得到一組一樣的隨機數。比如你每次都填1,其他引數一樣的情況下你得到的隨機數組是一樣的。但填0或不填,每次都會不一樣。

隨機數的產生取決於種子,隨機數和種子之間的關係遵從以下兩個規則:

種子不同,產生不同的隨機數;種子相同,即使例項不同也產生相同的隨機數。

import numpy as np

from sklearn.model_selection import train_test_split

x,y=np.arange(10)

.reshape((5

,2))

,range

x=np.array([[

0,1]

,[2,

3],[

4,5]

,[6,

7],[

8,9]

])y=[

0,1,

2,3,

4]print

(x)print

(y)x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=

0.33

, random_state=0)

print

(x_train)

print

(y_train)

print

(x_test)

print

(y_test)

結果為

[[0

1][2

3][4

5][6

7][8

9]][

0,1,

2,3,

4][[

23][

67][

89]]

[1,3

,4][

[45]

[01]

][2,

0]

train test split引數含義

在機器學習中,我們通常將原始資料按照比例分割為 測試集 和 訓練集 通常使用sklearn.cross validation裡的train test split模組用來分割資料。cross validation已經棄用,現在改為從 sklearn.model selection 中呼叫 train ...

用Margin還是用Padding

用margin還是用padding 何時應當使用margin 需要在border外側新增空白時。空白處不需要背景 色 時。上下相連的兩個盒子之間的空白,需要相互抵消時。如15px 20px的margin,將得到20px的空白。何時應當時用padding 需要在border內測新增空白時。空白處需要背...

用Margin還是用Padding

用margin還是用padding這個問題是每個學習css高階時的必經之路。css邊距屬性定義元素周圍的空間。通過使用單獨的屬性,可以對上 右 下 左的外邊距進行設定。也可以使用簡寫的外邊距屬性同時改變所有的外邊距。w3school 邊界 margin 元素周圍生成額外的空白區。空白區 通常是指其他...