對已有的指標進行簡單的加減乘除處理
求單個企業營業收入的行業佔比
根據****判斷是否是為st
判斷審計機構是否是四大
去除空值、去除資產負債率大於1的企業
groupby
列表生成式
.loc
merge
concat
lambda表示式
直接對對應索引 +、-、*、/
使用groupby,merge函式
df [
'行業總值'
]= pd.merge(df,df.groupby(
"行業").
sum(
),left_on=
'行業'
,right_index=
true
,how=
'left'
)df[
'行業佔比'
]= df[
'營業收入'
]/df[
'行業總值'
]
df[
'**屬性'
]=df[
'****'].
(lambda x:
"st"
in x)
#如果要返回0,1
df['**屬性'
]=df[
'****'].
(lambda x:
int(
"st"
in x)
)#方法二:列表生成式
df['**屬性']=
[1if"st"
in i else
0for i in df[
'****'
]]
和上面差不多的方法,只是會用到邏輯判斷or
#列表生成式
df['是否四大']=
[1if"畢馬威"
in i or 「安永" in i or "普華永道" in i or "德勤" in i else
0for i in df[
'****'
]]
或者用excel
if(or(isnumber(find(,str))),1,0)
用dropna去除空值、iloc進行條件篩選
#去除有缺失值的行
df = df.dropna(axis=0)
df = df.iloc[df[
'資產負債率'
]<0,
:]
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...