train test split用法總結

sklearn.model_selection.train_test_split隨機劃分訓練集和測試集

官網文件：

一般形式：

train_test_split是交叉驗證中常用的函式，功能是從樣本中隨機的按比例選取train_data和test_data，形式為：

x_train,x_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

cross_validatio為交叉驗證

train_data：所要劃分的樣本特徵集

train_target：所要劃分的樣本結果

test_size：樣本佔比，如果是整數的話就是樣本的數量

random_state：是隨機數的種子。

隨機數種子：其實就是該組隨機數的編號，在需要重複試驗的時候，保證得到一組一樣的隨機數。比如你每次都填1，其他引數一樣的情況下你得到的隨機數組是一樣的。但填0或不填，每次都會不一樣。

隨機數的產生取決於種子，隨機數和種子之間的關係遵從以下兩個規則：

種子不同，產生不同的隨機數；種子相同，即使例項不同也產生相同的隨機數。

import numpy as np
from sklearn.model_selection import train_test_split
x,y=np.arange(10)
.reshape((5
,2))
,range
x=np.array([[
0,1]
,[2,
3],[
4,5]
,[6,
7],[
8,9]
])y=[
0,1,
2,3,
4]print
(x)print
(y)x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=
0.33
, random_state=0)
print
(x_train)
print
(y_train)
print
(x_test)
print
(y_test)

結果為

[[0
1][2
3][4
5][6
7][8
9]][
0,1,
2,3,
4][[
23][
67][
89]]
[1,3
,4][
[45]
[01]
][2,
0]

train test split引數含義

在機器學習中，我們通常將原始資料按照比例分割為測試集和訓練集通常使用sklearn.cross validation裡的train test split模組用來分割資料。cross validation已經棄用，現在改為從 sklearn.model selection 中呼叫 train ...

用Margin還是用Padding

用margin還是用padding 何時應當使用margin 需要在border外側新增空白時。空白處不需要背景色時。上下相連的兩個盒子之間的空白，需要相互抵消時。如15px 20px的margin，將得到20px的空白。何時應當時用padding 需要在border內測新增空白時。空白處需要背...

用Margin還是用Padding

用margin還是用padding這個問題是每個學習css高階時的必經之路。css邊距屬性定義元素周圍的空間。通過使用單獨的屬性，可以對上右下左的外邊距進行設定。也可以使用簡寫的外邊距屬性同時改變所有的外邊距。w3school 邊界 margin 元素周圍生成額外的空白區。空白區通常是指其他...

train test split用法總結

train test split引數含義

用Margin還是用Padding

用Margin還是用Padding

相關推薦