7 2 資料載入與切分

2021-08-03 05:32:55 字數 1478 閱讀 9817

資料分析首先要載入資料,一般使用numpy中的陣列或者pandas中的dataframe等資料結構來存放資料,示例**:

import numpy as np

x = np.random.random((10,5))

y = np.array(['m','m','f','f','m','f','m','m','f','f','f'])

x[x < 0.7] = 0

以上**,矩陣x表示的是10行5列的資料集,而且將x元素中小於0.7的值設定為0,向量y表示是屬性標籤,其對應的結果分別為

array([[ 0.        ,  0.        ,  0.99279061,  0.        ,  0.        ],

[ 0. , 0. , 0. , 0. , 0. ],

[ 0. , 0.75228332, 0. , 0. , 0. ],

[ 0. , 0. , 0. , 0. , 0. ],

[ 0. , 0.96809177, 0. , 0. , 0. ],

[ 0.73956947, 0. , 0.83682458, 0.82550419, 0.7967034 ],

[ 0.94029749, 0. , 0. , 0. , 0. ],

[ 0. , 0.86847999, 0.84031636, 0.88293549, 0.75715913],

[ 0. , 0. , 0. , 0. , 0. ],

[ 0. , 0.7748339 , 0. , 0. , 0.80939893]])

array(['m', 'm', 'f', 'f', 'm', 'f', 'm', 'm', 'f', 'f'], dtype='7.2.2 資料切分

利用numpy庫生成示例資料集後,我們通過sklearn庫提供的cross_validation模組劃分訓練資料與測試資料,示例**:

from sklearn.cross_validation import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)

其中x_train表示訓練資料集,y_train表示訓練結果集,x_test表示測試資料集,y_test表示測試結果集。其目的是利用訓練集資料去模擬模型,給出適當引數,然後利用測試集資料建議模型效果。

MySQL 資料切分

通過某種特定的條件,將存放在同乙個資料庫中的資料分散存放到多個資料庫上面,以達到分散單台裝置負載的效果 資料切分可以提高系統的總體可用性,單台裝置宕機之後,只有總體資料的某部分不可用,而不是所有的資料 按照不同的表 或者 schema 來切分到不同的資料庫 主機 之上 具體就是 需要架構設計良好,功...

資料庫切分之垂直切分

資料庫切分的垂直切分是根據業務而定的,就是把乙個系統所涉及到的表根據業務拆分成多個類,然後沒類放到乙個server上去,就會出現t1,t2,t3這三個表分表放在不同的伺服器上,這個叫水平拆分,根據是t1,t2,t3幾乎沒有關聯查詢。垂直切分的優點 資料庫的拆分簡單明瞭,拆分規則明確 應用程式模組清晰...

資料庫切分之水平切分

資料庫切分之水平切分 水平切分的目的是為了控制單錶記錄數,從而保證同一型別的資料雜湊到不同的表或者不同的庫中。資料庫水平切分就是對某個表按照路由規則儲存在多個表中,如表t會拆分成t1,t2,t3這些表也有可能儲存在不同的庫中,也有可能儲存在同乙個庫中,如t表分別存在server1.t,server2...