10 isin函式做篩選
11、缺失值處理
使用map函式就可以實現把某一列的字元型別的值轉換為數字。
data[
class
]= data[
class].
map首先定義乙個字典,然後使用map方法就可以把某一列的字元型別的值轉換為數字。
參考:使用pandas把某一列的字元值轉換為數字的例項
使用value_counts函式即可。**:
import pandas as pd
import numpy as np
df = pd.dataframe(
)print
(df)
df['key2'
].value_counts(
)
結果:
參考:【pandas】統計某個值的出現次數
使用unique()函式即可,**:
import pandas as pd
import numpy as np
df = pd.dataframe(
)print
(df)
print
(df[
'key1'
].unique(
))
結果:
key1 key2 data1 data2
0 a one -
0.066452
1.850358
1 a two 0.861040
-2.977021
2 b one 0.422862
1.871435
3 b two -
0.060591
-2.044589
4 a one 0.779476
-0.390922
['a'
'b']
多個條件
train_[
(train_[
'id']==
0)&(train_[
'queue_id']==2)]
單個條件
train_[train_[
'id']==
0]
**
data.isna().
sum(
)
結果展示了每一列的空值情況
province 0
adcode 0
model 0
bodytype 0
regyear 0
regmonth 0
salesvolume 5280id0
forecastvolum 36960
popularity 5280
carcommentvolum 5280
newsreplyvolum 5280
label 5280
使用pandas讀取excel
pandas資料的去重,替換和離散化,異常值的檢測
包括merge和contract方法
pandas-資料的合併與拼接
9.1 寫入乙個excel
一般不需要指定寫入引擎,pandas會根據你的系統和excel格式自動選,缺少的引擎pip install安裝就好。
file_name=
'mdp_original.xlsx'
dataset_original.to_excel(file_name,sheet_name=
'version1'
,index=
false
)
9.2 寫入多個sheet
**如下:
with pd.excelwriter(file_name)
as writer:
dataset_original.to_excel(writer,sheet_name=
'original'
,index=
false
) dataset_v1.to_excel(writer,sheet_name=
'v1'
,index=
false
) dataset_v2.to_excel(writer,sheet_name=
'v2'
,index=
false
)
有點類似於python中的in關鍵字,主要是判斷dataframe特定列是否在某個範圍內,可以看一下這個示例:
>>
>
import numpy as np
>>
>
import pandas as pd
#建立資料
>>
> df=pd.dataframe(np.random.randint(1,
16,size=(4
,4))
,columns=
['a'
,'b'
,'c'
,'d'])
>>
>
print
(df)
a b c d02
71111
25151524
107153
311122
>>
> l=
list
(range(1
,8))
>>
>
print
(l)[1,
2,3,
4,5,
6,7]
>>
> df[
'c']
.isin(l)
0true
1false
2true
3false
name: c, dtype:
bool
# 篩選
>>
> data=df[df[
'c']
.isin(l)
]>>
>
print
(data)
a b c d02
71112
410715
>>
>
參考自pandas中isin()函式及其逆函式使用
#空值處理方式
data.fillna(data.mean(
), inplace =
true
)#以均值填充
data.fillna(
0, inplace =
true
)#以0填充
data.dropna(inplace=
true
)#剔除空值,針對空值數量相對總體而言可以忽略的情況
參考:pandas nan值判斷與 pandas 操作整理
pd.read csv filename 從csv檔案匯入資料,filename路徑 pd.read excel filename 從excel檔案匯入資料 pd.read sql query 從sql表 庫匯入資料 pd.read html url 解析url 字串或者html檔案,抽取其中的ta...
pandas 常用函式整理
pandas常用函式整理,作為個人筆記。僅標記函式大概用途做索引用,具體使用方式請參照pandas官方技術文件。約定from pandas import series,dataframe import pandas as pd import numpy as np 帶.的為series或者dataf...
整理 pandas 常用函式
1.df.head n 顯示資料前n行,不指定n,df.head則會顯示所有的行 2.df.columns.values獲取所有列索引的名稱 3.df.column name 直接獲取列column name的資料 4.pd.unique series 獲取series中元素的唯一值 即去掉重複的 ...