資料預處理時的一些基本操作

2021-09-09 04:54:05 字數 965 閱讀 4722

1、刪除某一列:

df.drop(列名,axis = 1(刪除列),inplace = true(對原dataframe進行操作)

2、判斷哪一列有空值:

df.isnull().any()

如果有空值 則該列返回true,否則返回false

3、刪除值含空的資料

df.dropna()    引數how預設為any

如果該行資料有空 則刪除這一行,how如果為all 則該行所有資料全為空時才刪除

4、通過其他列的計算生成一列新資料

df[新列名] = df[列名1]/df[列名2]

5、根據某一列進行排序

df.sort_values(by = 列名,asending = true)

6、檢視某一列都有那些元素

df[列名].unique()

7、統計某一列各個元素出現次數

df[列名].value_counts()

8、以某一列分組,得到每個組的某一列資料和

df.groupby(要分組的列名)[要求資料的列名].sum()

9、多條件查詢

df.groupby([列名1,列名2])[要查詢的列名].sum()

10、對某一列使用函式

df[列名].map(函式名)

11、進行資料型別的轉換(這裡轉化為時間型別)

df[列名] = pd.to_datatime(df[列名])

12、將series中的一級索引轉化為列索引(一般對分組後的資料操作)

s1.unstack(一級索引名)

13、把列索引轉化為series一級索引(一般對分組後的資料操作)

df.stack(列名)

14、合併資料

pd.concat([df1,df2,df3],ignore_index = true)

ignore_index = true表示重新設定索引

後續更新......

NLP文字預處理的一些方法

寫在前面 隨著bert等技術的興起,在做文字方面比賽時,對於預處理這一塊像中文分詞,停用詞過濾,詞形還原,詞幹化,標點符號處理等變的不再這麼重要。當然也可以從另乙個角度來看,這些對於文字的預處理方法相當於減少輸入的雜訊,是可以讓神經網路更具有魯棒性的。所以以下內容可以作為乙個知識儲備在這裡,在工作中...

numpy處理資料時一些常用函式

我們以iris.data.舉例,下面是iris資料集 取前6行 其中前4列是特徵,第5列是類別,有三類,分別是iris setosa,iris versicolor和iris virginica iris.data 5.1,3.5,1.4,0.2,iris setosa 4.9,3.0,1.4,0....

資料的一些處理

1.int curr pfind parr pstart 指標相減確定下標 printf n curr d curr 同型別相減,自動除以型別 2.寬字元 0佔2個位元組,在寬字元中1個字元占用2個位元組,窄字元 0佔1個位元組,在窄位元組中1個字元占用1個位元組。寬字元只不過是用了乙個大盒子來存放...