資料分析本就是應用數學的分支,必然要服務於實際場景的,而且要真正體現應有的作用。 而要達到這樣的目的,從業者當然要積極發揚理論結合實踐的偉大方針而踐行之,而不是將其放在 一種類似玄學或者詭辯的語境之下而難以給出可落地的方案。
本文是筆者結合工作經驗,談談資料分析在實際業務支援中的一種健康可持續的通用方法,而長期有效的以這種方法維護和更新資料工作,可以對業務支援起到事半功倍和不斷增強的效果。這種方法和內在思想,並無創新,但實在有效,而其挑戰在於要對於眼前要做的事和以後的事的給出充分思考空間和調和之道。
我接手過一些前同事做過的二手專案,也旁觀過很多資料類的工作,最大的問題就是:當新情況出現了,在原有架構下很難作適應性的更新和改善,除了縫縫補補,應付眼前,一步一步看著原有架構崩盤。由於可復用性很低,最後只能重做。有一條中間道路,就是建立新框架,把舊的逐漸吃掉,但經驗而言,這會對做這件事的人造成很大壓力。 造成這種情況的原因在於,某些從業人員工作時,思路僅僅放在「完活兒」這樣乙個封閉的框架下,於是只顧眼前,而 不問將來。轉回來,本文重點放在如何是一種好的資料分析方法上。
必須強調,做好準備工作是一種見識和能力,要積極的推動。
首先要確定業務目標。這似乎不難,所以產品都是要產生價值的,似乎再俗一點說來,目標就是掙錢。 當然,這樣看法不算錯誤,只不過資訊量太低了。商業價值是業務目標重要的一部分,但還應考慮社會價值等, 而且這些價值會互相影響,形成乙個複雜系統。再者,只提目標是錢或者商業價值,還是過於粗糙,因此是需要進行目標細化的, 這一步起始於從那些方面獲取商業價值。
於是尋找哪些方面就成了次一級的目標,以此前推,目標會被多層分解,可以想見,終點就是公司業務的現狀。 此時,以公司現狀為起點,按照與剛才目標分解相反的方向回到目標,就大體上是乙個實現目標的過程。 經過這所謂一正一反,業務的內容已經非常類似乙個閉環。如果再反覆進行這個過程幾次,就會成為乙個螺旋式上公升的優化結構, 每一次都會形成乙個前後照應的閉環。
比如,乙個使用者產品,目標是從使用者身上獲取商業價值。此時要考慮使用者和商業變現方案。於是,如何獲取和運營使用者,制定方案等事宜就一一排列出來。如果是電商產品,目標是完成訂單,也可以此逐層分解,再回歸。對於具體的業務線,按照這種方式, 可以把對應的流程圖或者地圖畫出來。這並不難,但確實需要耐心,一定要力求堅持清晰的畫出來,不要擔心出現模糊的地方, 因為這恰恰是產生創新思維和優化方案,以及發現重要資訊的時機。
注意一點,要對已有的實現目標的方法,保持開放的眼光,這意味著要考慮兩點:第一,可能還有別的方法; 第二,可還會有新的情況。在這種思考的基礎上,應該在方案中為可能的出現新情況,甚至是未知情況留有一定的空位; 保守一點說來,不要把現有方案規定的太死,至少要有靈活度,可延展。比如設計一張使用者資料表,許多具體的行為是可以完全被抽象成乙個維度的不同屬性的, 而有些設計不好的表,維度嚴重不平行,為長期維護造成不少麻煩。
至此可見,業務的結構以及邏輯已經有了很明顯的輪廓。那如何再進一步使之精細而且便於操作呢,於是進入完整而正式的數位化過程。而之後的步驟,就相對可控多了。
一般來說,很多從業者稱這個階段為指標建立階段。簡言之,就是將上述的目標分解和方案形成的各個步驟或節點的文字敘述數位化。 通常而言,從這一步起,所謂真正感官上承認的資料分析工作正式開始了。而這一步的目的是把業務流程轉化為資料流,並搭配一套指標體系。 需要注意的是有些工作物件的數字指標很難一一對應,此時需要採取近似或估計法,那麼一定要記錄好採取這種方法的前提和適用範圍,以備以後修正。 非常鼓勵分析師具備足夠的元資料管理和資料治理的思維。之後就是資料工作的常規流程了,分析師都很清楚了,本文不再贅述。
數位化的便利在於使整個業務流可計算了,於是數學模型和計算機演算法等數理方法可以紛紛加持,通過一系列建模過程,資料結果可出。 這是大多分析師非常享受的階段,幾乎所有相關書籍都有詳細敘述。
畢竟資料分析結果是要給人看的,而且很多看的人並不一定具備資料科學的背景,此時就需要將資料結果轉化成小白也可以看懂的形式。 此時需要分析師們放空自己,放下身段,想一想作家,畫家或其他藝術家是如何將難言的東西以形象生動的方式表達出來的。當然, 其實分析師需要做的要容易的多,以聽者需求為基點,最好用一種白描方式,結合具體場景來談。一堆圖表絕不是好的辦法。
根據個人經驗,資料表達要保證三個原則:第一,要正確表達資料資訊所能得到的;第二,要令直接受眾正確的理解;第三,要保證直接受眾可以正確表達你所表達的給別人。
切記一點,要如實表達資料結果的資訊,莫要過分,否者後果嚴重。
社群推薦:
python kaggle資料分析實戰
三.資料處理 首先新增python中常用的資料分析庫 import numpy as np import pandas as pd import os import matplotlib.pyplot as plt import plotly as py import plotly.graph ob...
Pandas資料分析實戰03
讀取北上廣深瓜子二手車的資料 1.分別讀取4個csv檔案,然後合併多個csv檔案 2.去重複資料,重新設定連續索引 3.統計汽車自動擋和手動擋分別有多少輛 4.統計哪個城市二手車數量最多 5.統計深圳市最多的二手車品牌 瓜子網二手車交易資料 import numpy as np import pan...
Pandas資料分析實戰04
統計以下5個國家2010年人口的佔比情況 country list afghanistan albania arab world aruba bangladesh import numpy as np import pandas as pd import matplotlib.pyplot as p...