資料分析的一些方法(一)

2021-10-22 14:27:03 字數 2310 閱讀 1998

本內容包含八個方法:

邏輯樹、pest、多維度拆解、對比、假設檢驗、aarrr漏斗模型、rfm模型、杜邦分析方法。

將零散的問題結構化,把複雜的問題簡單化。

比如要計算北京有多少特斯拉。這個問題可以拆分為北京的汽車數量和北京特斯拉佔比,第乙個問題可以通過網上查詢到,第二個問題可以通過實際在十字路口上觀察,如果觀察樣本n=100,發現有五輛特斯拉那麼特斯拉在北京的佔比就是百分之五。(簡單處理,更為合理的是多個地點進行觀察求平均值)

另外乙個例子就是計算芝加哥有多少鋼琴師

我們可以上網查詢到芝加哥的總人口,因為鋼琴的體積和**等因素我們考慮它的占有量應該是在百分之一,但是考慮到芝加哥有**學院和中小學的**教室我們把這個比率調整到百分之二。所以可以得出有5w架鋼琴。因為鋼琴不像吉他一樣需要經常調音,所以只需要一年一次,調一次音預估在二小時,可以我們可以計算出全部鋼琴調音師的一年總工作時長。

我們計算一位調音師的工作時長,一周五天,一天工作8小時,減去兩小時在路上,可以算出一位調音師每年1600個小時,這時候芝加哥鋼琴調音師有多少就已經得出了。

pest可以用來進行行業分析,包含政策(policy)、經濟(economy)、社會(society)、技術(technology)。

闡述政策和經濟對行業的促進,社會和技術背景對行業起到的作用。屬於定性分析。

也就是指從多個角度進行分析

我們根據下表來看一下男生是否比女生更容易被錄取:

如果只看總的錄取率很容易會得出錯誤的結論,男性45%>30%,但是我們發現三分之二的學院更傾向於錄取女生,所以一定要進行維度拆分。不然就可能導致辛普森悖論,就是整體和部分不一致。

錨定效應沉錨效應,心理學名詞,指的是人們在對某人某事做出判斷時,易受第一印象或第一資訊支配,就像沉入海底的錨一樣把人們的思想固定在某處。作為一種心理現象,沉錨效應普遍存在於生活的方方面面。第一印象先入為主是其在社會生活中的表現形式。

通常來講,人們在作決策時,思維往往會被得到的第一資訊所左右,就像沉入海底的錨一樣,把你的思維固定在某處。而用乙個限定性的詞語或規定作行為導向,達成行為效果的心理效應,被稱為「沉錨效應」。

**就是你第一次買衣服,看到一件299衣服,當有另外一件衣服售價899,你就不會覺得299的貴了,而且你的消費水平也會固定在299的範圍

**

我們在分析時,如果只有銷售額是分析不出來什麼東西的,因為沒有參考的東西。所以要進行對比分析(和整體比,平均值和中位數。看折線圖的波動。環比是同年不同月,同比是同月不同年。):

a/btest:在產品進行上線測試的時候,也經常會有a/b測試的對比。會有其他博文進行詳細介紹。

以上三個假設都是基於使用者和產品兩個維度出發,其實還可以思考競品,如小紅書的競品是網易考拉,darling。

面試題舉例

你現在是滴滴打車的一名運營。如果用rfm分析方法對滴滴的使用者進行分類,你會如何定義r、f、m這3個指標?

r就是最近一次的打車時間,或者距離上一次打車多少天。 f就是打車頻率,這個月內打車的總次數。 m乙個月內的打車金額。

將各種財務指標綜合在一起來評價公司財務管理效果。通常用於公司財務方面的分析。

1)公司業務是否賺錢?(銷售淨利率)

2)公司資產運營效率如何?(總資產周轉率)

3)公司債務負擔有沒有風險?(權益乘數)

eg:加入你想開乙個包子鋪,自己出資100w,找老王借了100w,包子鋪總資產200w。

1)銷售淨利潤:淨利潤/銷售額

2)總資產周轉率:銷售額/總資產

3)權益乘數:總資產/淨資產(自己出的錢)

一些常見的資料分析方法

1.平均分析法 資料分析中的平均分析法就是運用計算平均數的方法來反應總體在一定時間 地點條件下某一數量特徵的一般水平。平均指標法的主要作用有兩點,第一就是利用平均指標對比某些現象在不同歷史時期的變化,更能說明其發展趨勢和規律。第二就是利用平均指標對比同類現象在不同地區 不同行業 不同型別單位等之間的...

資料分析的一些思考

是否可以從個體的金錢流動中發現社會執行機制,這是我感興趣的地方,此idea由集智百科的社群劃分演算法所引發。最近在試圖花大量時間讀懂ap算 文,大概半月到一月左右,之後看能否應用於二部圖聚類,避免聚類數目指定的問題。計畫先實現單機測試版,可行的話再分布式測試實際資料。金錢 物質等都可歸於資訊流動範疇...

關於資料分析的一些注意點

1 分層抽樣的重要性,但是這個是針對分析物件的體量,我們無法全部採集的情況下,需要考慮的問題 2 細分分類,得到細緻的結論。但是要保證細分之後的資料足夠,確保最後統計結果的有效性。3 對於樣本的分析,我們經常需要檢視一下幾個特徵 頻率度量 眾數 位置度量 均值和中位數 散度度量 極差和方差 資料分布...