pandas dataframe 如何打亂資料

2021-10-01 13:22:44 字數 505 閱讀 5771

主要是我們在進行機器學習訓練過程中,我們經常拿到的資料是有序,但是為了取得的資料能夠覆蓋每乙個分布,需要對資料進行重新洗牌。

df.sample(frac=

0.5)

frac表示資料集中挑選出資料的比例

如上述**,df是你的資料集,frac=0.5,表示隨機挑選50%的資料。

from sklearn.utils import shuffle

df = shuffle(df,n_samples=

1)

df表示原來的資料集

n_sample:打亂挑選的資料個數

dataframe索引預設是int,可以通過生成某一範圍內的隨機數按照index值進行索引

shuffle_index = np.random.permutation(

len(df)

)df.iloc[shuffle_index]

Pandas DataFrame用法總結

1 將某一列滿足條件的資料的所在行提取出來 df ori pd.read excel f ivf data data add yuejing time data arrange no null23.xlsx df new df ori df ori.iloc 2 0.6 將某一列滿足條件 0.6 的...

Pandas DataFrame常用方法

1 獲取列名 1.1.鍊錶推導式 語法 col for col in df 返回結果 cvr1 cvr2 cvr3 cvr4 結果型別 list 1.2.通過columns屬性 columns屬性返回index,columns.values屬性返回 numpy.ndarray,可通過 tolist ...

Pandas DataFrame 按行構建

當我們從複雜 提取出逐個樣本的特徵時,繼而構成一條樣本並組成訓練或測試集時,比較容易想到的一點就是一行一行地構建dataframe。而pandas.dataframe 容許的輸入有numpy ndarray structured or homogeneous dict,or dataframe這些 ...