pandas 資料處理

2022-07-05 09:48:14 字數 705 閱讀 3901

1、 檢視數值資料的整體分布情況

datafram.describe()

輸出:age

count 1463.000000

mean 22.948052

std 8.385384

min 13.000000

25% 17.000000

50% 20.000000

75% 27.000000

max 64.000000

其中的25%,50%這些是百分位數。

百分位數的定義為:

統計學術語,如果將一組資料從小到大排序,並計算相應的累計百分位,則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處於p%位置的值稱第p百分位數。

例子:百分位通常用第幾百分位來表示,如第五百分位,它表示在所有測量資料中,測量值的累計頻次達5%。以身高為例,身高分布的第五百分位表示有5%的人的身高小於此測量值,95%的身高大於此測量值。

百分位數則是對應於百分位的實際數值。

2、pandas的dataframe修改欄位的型別

比如age欄位是string,但是要改成int型別   user_age_df[['age']].astype(float)

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...

Pandas資料處理

資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...