python TGI指數分析實戰

2021-10-07 07:04:12 字數 1794 閱讀 9124

本次實戰的目的主要是了解tgi指數的定義,並在使用者訂單資訊資料集上利用python實現簡單的tgi指數偏好分析

tgi指數=目標群體中具有某一特徵的群體所佔的比例/總體中具有相同特徵的群體所佔的比例*100

關鍵字:特徵,總體,目標群體

因最近正退出一款客單價較高的產品,需要篩選出哪些城市具有高客單偏好進行試銷,選出5個城市即可

客單價》50即可認為是高客單,

結合上述提到的tgi關鍵字,這裡特徵即為高客單,總體為資料集中所有城市,目標群體是細分到每個城市,再去計算每個城市(目標群體)的tgi指數

資料共有28832行9列,並且資料完整,沒有缺失值,不需要做資料清洗

計算每位買家的客單價--》分類打標籤為高客單/低客單--》按照省份、城市進行分組(groupby)--》計算每個城市高/低客單數量(可用合併的方式)--》計算總體的高客單佔比--》計算每個城市的高客單佔比--》篩選出符合條件的top5高客單城市

gp_user = data.groupby('買家暱稱').mean().reset_index()

gp_user.head()

def gaokedan(x):

if x>=50:

return '高客單'

else:

return '低客單'

gp_user.head()

分組之前先對**進行合併

data_dup=data.loc[data.duplicated('買家暱稱')==false,:]  #duplicates用於判斷是否有重複,這裡去除掉會重複的買家暱稱,方便後續合併

data_merge=pd.merge(gp_user,data_dup,left_on='買家暱稱',right_on='買家暱稱',how='left') #需要合併的原因是gp_user中沒有省份資訊,所以需要連線原資料data

data_merge=data_merge[['買家暱稱','客單類別','省份','城市']] #取出需要的資料

result=pd.pivot_table(data_merge,index=['省份','城市'],columns='客單類別',aggfunc='count')#再用透視表

result.head()

tgi=pd.merge(result['買家暱稱']['高客單'].reset_index(),result['買家暱稱']['低客單'].reset_index(),left_on=['省份','城市'],right_on=['省份','城市'])

tgi.head()

tgi.dropna(inplace=true) #某些城市中高客單或低客單人數為null,對分析結果影響不大,刪除這些缺失值

tgi['總人數']=tgi['高客單']+tgi['低客單']

tgi['高客單佔比']=tgi['高客單']/tgi['總人數']

total_percentage=tgi['高客單'].sum()/tgi['總人數'].sum()

tgi['tgi指數']=tgi['高客單佔比']/total_percentage

tgi.sort_values(by='tgi指數',ascending=false).head()

#發現前幾名城市中某幾個總人數極少,不符合試銷條件,所以嘗試篩選出總人數大於平均值的城市,並按tgi指數進行排名

tgi.loc[tgi['總人數']>tgi['總人數'].mean(),:].sort_values(by='tgi指數',ascending=false).head()

指數分布族

從標題上看,是 指數分布族 exponential family 不是 指數分布 exponential distribution 這是兩個不同的概念,不要弄混了。指數分布族在上世紀30年代中期被提出,在概率論和統計學中,它是一些有著特殊形式的概率分布的集合,包括許多常用的分布,如正態分佈 指數分布...

java實現指數分布

指數分布的概率密度函式 y lamda exp lamda x x 0 由此可以計算概率分布函式 y 1 exp lamda x x 0 y是x的概率,其取值在區間 0,1 內 首先,把y當作是在 0,1 區間的均勻分布的隨機變數。然後,求y 1 exp lamda x 的逆函式,x 1 lamda...

指數分布在生活中的應用 指數分布應用

一 在概率論中有一種分布是指數分布,其概率密度函式為 f x e x 0 0x 0 這種分布具有無記憶性,和壽命分布類似。舉個例子來說就是,乙個人已經活了 歲和他還能再活 歲這兩件事是沒有關係的。因此指數分布也被戲稱為 永遠年輕 另外正態分佈也用到了指數函式,只不過表示式比較複雜,這在高中數學中也 ...