1、刪除某一列:
df.drop(列名,axis = 1(刪除列),inplace = true(對原dataframe進行操作)
2、判斷哪一列有空值:
df.isnull().any()
如果有空值 則該列返回true,否則返回false
3、刪除值含空的資料
df.dropna() 引數how預設為any
如果該行資料有空 則刪除這一行,how如果為all 則該行所有資料全為空時才刪除
4、通過其他列的計算生成一列新資料
df[新列名] = df[列名1]/df[列名2]
5、根據某一列進行排序
df.sort_values(by = 列名,asending = true)
6、檢視某一列都有那些元素
df[列名].unique()
7、統計某一列各個元素出現次數
df[列名].value_counts()
8、以某一列分組,得到每個組的某一列資料和
df.groupby(要分組的列名)[要求資料的列名].sum()
9、多條件查詢
df.groupby([列名1,列名2])[要查詢的列名].sum()
10、對某一列使用函式
df[列名].map(函式名)
11、進行資料型別的轉換(這裡轉化為時間型別)
df[列名] = pd.to_datatime(df[列名])
12、將series中的一級索引轉化為列索引(一般對分組後的資料操作)
s1.unstack(一級索引名)
13、把列索引轉化為series一級索引(一般對分組後的資料操作)
df.stack(列名)
14、合併資料
pd.concat([df1,df2,df3],ignore_index = true)
ignore_index = true表示重新設定索引
後續更新......
NLP文字預處理的一些方法
寫在前面 隨著bert等技術的興起,在做文字方面比賽時,對於預處理這一塊像中文分詞,停用詞過濾,詞形還原,詞幹化,標點符號處理等變的不再這麼重要。當然也可以從另乙個角度來看,這些對於文字的預處理方法相當於減少輸入的雜訊,是可以讓神經網路更具有魯棒性的。所以以下內容可以作為乙個知識儲備在這裡,在工作中...
numpy處理資料時一些常用函式
我們以iris.data.舉例,下面是iris資料集 取前6行 其中前4列是特徵,第5列是類別,有三類,分別是iris setosa,iris versicolor和iris virginica iris.data 5.1,3.5,1.4,0.2,iris setosa 4.9,3.0,1.4,0....
資料的一些處理
1.int curr pfind parr pstart 指標相減確定下標 printf n curr d curr 同型別相減,自動除以型別 2.寬字元 0佔2個位元組,在寬字元中1個字元占用2個位元組,窄字元 0佔1個位元組,在窄位元組中1個字元占用1個位元組。寬字元只不過是用了乙個大盒子來存放...