資料特徵分析之帕累託分析以及python實現

2021-09-11 05:40:36 字數 1945 閱讀 2794

帕累託分析(貢獻度分析) → 帕累託法則:20/80定律

「原因和結果、投入和產出、努力和報酬之間本來存在著無法解釋的不平衡。一般來說,投入和努力可以分為兩種不同的型別:

多數,它們只能造成少許的影響;少數,它們造成主要的、重大的影響。」

→ 乙個公司,80%利潤來自於20%的暢銷產品,而其他80%的產品只產生了20%的利潤

例如:** 世界上大約80%的資源是由世界上15%的人口所耗盡的

** 世界財富的80%為25%的人所擁有;在乙個國家的醫療體系中

** 20%的人口與20%的疾病,會消耗80%的醫療資源。

乙個思路:通過二八原則,去尋找關鍵的那20%決定性因素!

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

% matplotlib inline

plt.rcparams['font.sans-serif']=['simhei']

plt.rcparams['axes.unicode_minus']=false # 這裡設定字型,防止中文亂碼

# 帕累託分布分析

data = pd.series(np.random.randn(10)*1200+3000,

index = list('abcdefghij'))

# 這裡abcdefghij表示是個產品,用隨機值模擬器銷售額

print(data)

print('------')

# 建立資料,10個品類產品的銷售額

data.sort_values(ascending=false, inplace= true)

# 由大到小排列

plt.figure(figsize = (10,4))

data.plot(kind = 'bar', color = 'g', alpha = 0.5, width = 0.7)

plt.ylabel('營收_元')

# 建立營收柱狀圖

p = data.cumsum()/data.sum() # 建立累計佔比,series

key = p[p>0.8].index[0]

key_num = data.index.tolist().index(key)

print('超過80%累計佔比的節點值索引為:' ,key)

print('超過80%累計佔比的節點值索引位置為:' ,key_num)

print('------')

# 找到累計佔比超過80%時候的index

# 找到key所對應的索引位置

p.plot(style = '--ko', secondary_y=true) # secondary_y → y副座標軸

plt.axvline(key_num,hold=none,color='r',linestyle="--",alpha=0.8)

plt.text(key_num+0.2,p[key],'累計佔比為:%.3f%%' % (p[key]*100), color = 'r') # 累計佔比超過80%的節點

plt.ylabel('營收_比例')

# 繪製營收累計佔比曲線

key_product = data.loc[:key]

print('核心產品為:')

print(key_product)

# 輸出決定性因素產品

上面的**在jupyter中執行,輸出如下:

資料分析中,通過帕累託分布,通過產品的貢獻度,可以得到現階段公司核心產品。

資料特徵分析 帕累託分析

帕累託分析 貢獻度分析 即二八定律 目的 通過二八原則尋找屬於20 的關鍵決定性因素。隨機生成資料 df pd.dataframe np.random.randn 10 1000 3000,index list abcdefghij columns 銷量 避免出現負數 df.sort values ...

帕累託分析

課程1.5 帕累託分析 帕累託分析 貢獻度分析 帕累託法則 20 80定律 原因和結果 投入和產出 努力和報酬之間本來存在著無法解釋的不平衡。一般來說,投入和努力可以分為兩種不同的型別 多數,它們只能造成少許的影響 少數,它們造成主要的 重大的影響。乙個公司,80 利潤來自於20 的暢銷產品,而其他...

帕累託分析

又稱為二八法則,即百分之八十的問題是百分之二十的原因造成的。在專案管理中主要用於找出核心問題。1 柱形圖的資料按數值的降序排列,折線圖上的資料有累積百分比資料,並在次座標軸顯示 2 折線圖的起點數值為0 並且位於柱形圖第乙個柱子的最左下角 3 折線圖的第二個點位於柱形圖第乙個柱子的最右上角 4 折線...