維度分析法
當你有了指標,可以著手進行分析,資料分析大體可以分三類,第一類是利用維度分析資料,第二類是使用統計學知識如資料分布假設檢驗,最後一類是使用機器學習。我們先了解一下維度分析法。
維度是描述物件的引數,在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,所以它們都能算維度。
當我們有了維度後,就能夠通過不同的維度組合,形成資料模型。資料模型不是乙個高深的概念,它就是乙個資料立方體。
上圖就是三個維度組成的資料模型/資料立方體。分別是產品型別、時間、地區。我們既能獲得電子產品在上海地區的2010二季度的銷量,也能知道書籍在江蘇地區的2010一季度銷量。
資料模型將複雜的資料以結構化的形式有序的組織起來。我們之前談到的指標,都可以作為維度使用。下面是範例:
將使用者型別、活躍度、時間三個維度組合,觀察不同使用者群體在產品上的使用情況,是否a群體使用的時長更明顯?
將商品型別、訂單金額、地區三個維度組合,觀察不同地區的不同商品是否存在銷量差異?
資料模型可以從不同的角度和層面來觀察資料,這樣提高了分析的靈活性,滿足不同的分析需求、這個過程叫做olap(聯機分析處理)。當然它涉及到更複雜的資料建模和資料倉儲等,我們不用詳細知道。
資料模型還有幾種常見的技巧、叫做鑽取、上捲、切片。
選取就是將維度繼續細分。比如浙江省細分成杭州市、溫州市、寧波市等,2023年一季度變成1月、2月、3月。上捲則是鑽取的相反概念,將維度聚合,比如浙江、上海、江蘇聚合成浙江滬維度。切片是選中特定的維度,比如只選上海維度、或者只選2023年一季度維度。因為資料立方體是多維的,但我們觀察和比較資料只能在二維、即**中進行。
上圖的樹狀結構代表鑽取(source和time的細分),然後通過對route的air切片獲得具體資料。
聰明的你可能已經想到,我們常用的資料透視表就是一種維度分析,將需要分析的維度放到行列組合進行求和、計數、平均值等計算。放一張曾經用到的案例:用城市維度和工作年限維度,計算平均工資。
除了excel、bi、r、python都能用維度分析法。bi是相對最簡便的。
談到維度法,想要強調的是分析的核心思維之一:對比,不同維度的對比,這大概是對新人快速提高的最佳捷徑之一。比如過去和現在的時間趨勢對比,比如不同地區維度的對比,比如產品型別的區別對比,比如不同使用者的群體對比。單一的資料沒有分析意義,只有多個資料組合才能發揮出資料的最大價值。
我想要分析公司的利潤,利潤 = 銷售額 - 成本。那麼找出銷售額涉及的指標/維度,比如產品型別、地區、使用者群體等,通過不斷的組合和拆解,找出有問題或者表現良好的原因。成本也是同理。
這就是正確的資料分析思維。總結一下吧:我們通過業務建立和篩選出指標,將指標作為維度,利用維度進行分析。
很多人會問,指標和維度有什麼區別?
維度是說明和觀察事物的角度,指標是衡量資料的標準。維度是乙個更大的範圍,不只是資料,比如時間維度和城市維度,我們就無法用指標表示,而指標(留存率、跳出率、瀏覽時間等)卻可以成為維度。通俗理解:維度》指標。
到這裡,大家已經有乙個資料分析的思維框架了。之所以是框架,因為還缺少具體的技巧,比如如何驗證某乙個維度是影響資料的關鍵,比如如何用機器學習提高業務,這些涉及到資料和統計學知識,以後再講解。
這裡我想強調,資料分析並不是乙個結果,只是過程。還記得「如果你不能衡量它,那麼你就不能有效增長它」這句話嗎?資料分析的最終目的就是增長業務。如果資料分析需要績效指標,一定不會是分析的對錯,而是最終資料提公升的結果。
資料分析是需要反饋的,當我分析出某項要素左右業務結果,那麼就去驗證它。告訴運營和產品人員,看看改進後的資料怎麼樣,一切以結果為準。如果結果並沒有改善,那麼就應該反思分析過程了。
這也是資料分析的要素,結果作導向。分析若只是當乙份報告呈現上去,後續沒有任何跟進、改進的措施,那麼資料分析等與零。
業務指導資料,資料驅動業務。這才是不二法門。
——————
解答上篇文章的思考題,可能大家等急了。
你是**的資料分析師,現在需要你預估雙十一的銷量,你不能獲得雙十一當天和之前的所有資料。只能獲得11月12日開始的資料,你應該如何預估?
因為是開放題,所以沒有固定答案。
大家的回答分為兩類:
一類是通過後續雙十一的銷量,判斷16年,缺點是需要等一年,優點是簡單到不像話。
二類是通過11月12日之後的銷量資料,往前預估,期間會考慮一些權重。缺點是雙十一屬於波峰,預估難道大,優點是可操作性好。
因為題目主要看的是分析思維,目的是找出可能的思路,所以有沒有其他的方法呢?
我們嘗試把思維放開,因為銷量能反應商品,有沒有其他維度?我們可能會想到:退換貨率、和商品評價率。因為雙十一的商品只能在12日後退換貨和收貨後評價,我們就能根據這兩個指標平日的平均比率,以及雙十一商品的後續退換和評價總數,預估賣出總量。退換貨率肯定會虛高一些(畢竟雙十一退貨不少),那麼商品評價率更準確。
還有其他方法麼?當然有,比如會有不少人用螞蟻花唄支付雙十一,那麼後續還款的比率能不能預估?
如果再將思路放開呢?雖然我不知道**當天的資料,但是可以尋求外部資料,比如京東,京東的雙十一銷量是多少,是平時的多少倍,那麼就用這個倍數去預估**的。
整體的分析結構就分為:
外部資料:
京東等其他平台雙十一銷量
內部資料:
商品資料:商品評價率、退換貨率、商品銷量
支付資料:螞蟻花唄支付比率等
侵刪
資料分析師 000 如何學習資料分析
2.2 技能點 2.3 商業知識 3 資料敏感 4 up的面經 手動反爬 如何學習資料分析 from 蠟蠟joanna 資料分析作為一種工具 只是一種工具 可以和很多其他能力結合,比如 da 產品 da 運營。只要行業中有足夠多的資料 前提 就能從資料中發現問題,並支援決策。2個主要的發展路線 up...
資料分析 資料探勘 如何成為資料分析師
最基本的資料分析 收集 和運用最常用的工具 熟練 然後 對付絕大部分的工作 要會在資料庫裡增刪訪問資料,大型資料分析必備技能 效率大大的提高 sudo service mysql start mysql u root主要的語法和邏輯 類似 create use create table insert...
了解資料分析師,轉行資料分析師,成為資料分析師
有人說,資料分析師就是分析資料的人唄。有人說,資料分析師是從浩如煙海的資料中發掘價值的淘金者。有人說,資料分析師是對蒐集到的資料進行整理 分析,在依據所屬行業提出的要求進行研究 評估和 的人。有人說,資料分析就是在一些大資料裡面進行統計,歸納還有對這些資料進行挖掘,發現資料裡面的潛在價值 那麼到底什...