大資料分析流程

2021-09-11 03:27:19 字數 4240 閱讀 2837

愛資料學院

welcome

一、為什麼要做乙份資料報告

你是乙個工作了一段時間的白領,你覺得現在這份工作不適合你,你下班以後去逛知乎,在上面看到很多人在說大資料代表未來,資料分析師是21世紀最**的十大職業之一……你激動了,你也要成為資料分析師,你利用空餘時間補上了統計知識,學了分析工具,然後發現自己目前的工作跟資料分析沒啥關係,覺得沒有相關經驗沒公司要你……

這些問題的根源是什麼?一句話可以概括:你沒有辦法在最短的時間內向招聘者展示,你能夠勝任資料分析這項工作。

在開始投簡歷前的最後一步,我建議用25個小時——佔整個計畫的四分之一,來做乙份資料報告,這個步驟至少能為你帶來三個好處:

檢驗你的學習成果——資料分析是一門實用學科,能靈活運用學到的知識做出成果,比通過任何考試都重要

測試你是否真的想做/適合做資料分析工作——比起你轉行後用半年或是一年時間來發現自己的真實想法,不如在此之前就看看你能否做好這份工作,或是從其中得到樂趣;

展示你具有的能力——程式設計師的世界裡講究「no more talk,show me the code」,資料分析師同樣可以「show me the report」,乙份內容完整的資料報告,能幫你的面試官省下很多判斷/評估/糾結的時間,給你更多的機會。

寫了一大堆做資料報告的好處,那麼以乙個初學者的水平,如何去做乙份資料報告呢?下文細說。

普通難度的資料報告要經歷7個步驟:

這一步在工作中通常是由你的客戶/上級/其他部門同事/合作方提出來的,但第一次的資料報告中,需要你自己來提出並確定目標。

選擇目標時,請注意以下幾點:

選擇乙個你比較熟悉,或者比較感興趣的領域/行業;

選擇乙個範圍比較小的細分領域/細分行業作為切入點;

確定這個領域/行業有公開發表的資料/可以獲取的ugc內容(論壇帖子,使用者點評等)。

逐一分析上面三個注意點:

選擇熟悉/感興趣的領域/行業,是為了保證你在後續的分析過程中能夠真正觸及事情的本質——這一過程通常稱為洞察——而不是就數字論數字;

選擇細分領域/行業作為切入點,是為了保證你的報告能夠有一條清晰的主線,而非單純堆砌資料;

確定公開資料/ugc內容,是為了保證你有資料可以分析,可以做成報告,你說你是個軍迷,要分析一下美國在伊拉克的軍事行動與基地組織恐怖活動之間的關係……找到了資料麻煩告訴我一聲,我叫你一聲大神……

不管用什麼方法,你現在有了乙個目標,那麼就向下個階段邁進吧。

目標定下來了,接下來要去找相應的資料。如果你制定目標時完全遵循了第一步的三個注意點,那麼你現在會很明確要找哪些資料。如果現在你還不確定自己需要哪些資料,那麼……回到第一步重來吧。

下面我總結一下,在不依賴公司資源,不花錢買資料的情況下,獲取目標資料的三類方法:

要善用搜尋引擎。

3.自行收集所需資料,比如用爬蟲工具爬取點評**的商家評分、評價內容等,或是直接自己人肉收集(手工複製下來),亦或是找乙個免費問卷**做乙份問卷然後散發給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實現難度相對較大。

如果你是在職人員或是實習生,我建議你不要用任何現在公司的資料。保證資料的安全性,不對外洩露公司的任何非公開資料,是資料分析師的基本職業道德。

實在非要用(例如你要在面試中展示你在以前公司做過的資料報告),請將一切有意義的內容,包括但不限於各種數字、競品及本品名稱、時間、使用者屬性全部打碼並轉成pdf格式,只留圖形和敘事邏輯描述內容。

在工作中,90%以上的情況,你拿到的資料都需要先做清洗工作,排除異常值、空白值、無效值、重複值等等。這項工作經常會佔到整個資料分析過程將近一半的時間。

無論你採用哪一種方式獲取資料,請記住,資料清洗永遠是你必須要做的一項工作。

如果你的資料已經是**形式,那麼計算一些二級指標就好,比如用今年銷量和去年銷量算出同比增長率。鑑於你是第一次做資料報告,建議你不要計算太多複雜的二級指標,基本的同比、環比、佔比分布這些就ok。

描述分析是最基本的分析統計方法,在實際工作中也是應用最廣的分析方法。描述統計分為兩大部分:資料描述和指標統計

資料描述:用來對資料進行基本情況的刻畫,包括:資料總數、時間跨度、時間粒度、空間範圍、空間粒度、資料**等。如果是建模,那麼還要看資料的極值、分布、離散度等內容。這次我們是零基礎做資料報告,那麼就不用考慮後一類資料了。

指標統計:用來作報告,分析實際情況的資料指標,可粗略分為四大類:變化、分布、對比、**;

變化:指標隨時間的變動,表現為增幅(同比、環比等);

分布:指標在不同層次上的表現,包括地域分布(省、市、區縣、店/網點)、使用者群分布(年齡、性別、職業等)、產品分布(如動感地帶和全球通)等;

對比:包括內部對比和外部對比,內部對比包括團隊對比(團隊a與b的單產對比、銷量對比等)、產品線對比(動感地帶和全球通的arpu、使用者數、收入對比);外部對比主要是與市場環境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用於找出好或壞的地方,而對比更偏重於找到好或壞的原因;

**:根據現有情況,估計下個分析時段的指標值。

描述分析的產出是圖表,下乙個步驟的內容將基於這些圖表產出。

這一步是資料報告的核心,也是最能看出資料分析師水平的部分。乙個年輕的分析師和乙個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內容。

舉個例子:

年邁的分析師:2023年1月、2月銷售額去除春節因素後,1月實際同比上公升20%,2月實際同比上公升14%,3月、4月銷售額持續增長。

看到兩者的區別了嗎?2023年春節在2月,2023年則在1月,因此需要各去除一周的銷售額,再進行比較。如果不考慮這一因素,那麼後續得出的所有結論都是錯的。挖掘數字變化背後的真正影響因素,才是洞察的目標。

再舉個例子:

年輕的分析師:第四類人群是遊戲主機的狂熱愛好者,他們交易頻率遠高於一般使用者。

年邁的分析師:第四類人群是二手販子,否則誰沒事一年內會搞將近7臺索尼主機放家裡。

很明顯,年邁的分析師由於具備豐富的行業經驗,能迅速看穿資料背後的真實情況,得出正確的洞察結論,這也是為什麼我在step 1裡一再強調要找你熟悉或感興趣的領域/行業,缺乏業務經驗,很可能你的洞察結果是完全錯誤的。

以上這兩個洞察的例子本身比較簡單,但通常來說,即使是複雜的資料報告,也是由乙個個相對簡單的洞察結論組成的,這其中涉及到問題的分拆,邏輯線的建立等一系列內容。作為初學者,做到自己力所能及的程度就好。

總結一下,所謂洞察,就是要越過資料,去推測和理解真實情況。單純描述資料,誰都會做,根據資料得出有價值的結論,報告才有意義。

都到這一步了,相信各位對資料報告也不再陌生了。這一步中,需要保證的是資料報告內容的完整性。

乙個完整的資料報告,應至少包含以下六塊內容:

1.報告背景

2.報告目的

3.資料**、數量等基本情況

4.分頁圖表內容及本頁結論

5.各部分小結及最終總結

6.下一步策略或對趨勢的**

其中,背景和目的決定了你的報告邏輯(解決什麼問題);資料基本情況告訴對方你用了什麼樣的資料,可信度如何;分頁內容需要按照一定的邏輯來構建,目標仍然是解決報告目的中的問題;小結及總結必不可少;下一步策略或對趨勢的**能為你的報告加分。

還覺得複雜麼?我再換一種說法:

各位應該都寫過議**,乙份好的資料分析報告其實就是一篇好的議**,立論(背景)——破題(目的)——列舉論據(圖表+結論)——論證論點(小結及總結)——結題(策略或**)。按照這個邏輯去組織你的報告,你的論點就很容易被人接受,自然能得高分嘍。

大資料分析的處理流程

大資料的處理流程可以定義為 利用適當的工具,提取和整合不同結構的資料來源,並按照一定的標準進行儲存,然後採用適當的資料分析技術進行分析,最後提取有用的知識,並將結果顯示給使用者以適當的方式在終端的前面。1.資料汲取與整合 由於大資料處理的資料 型別廣泛,而其第 一步是對資料進行抽取和整合,從中找出關...

大資料分析處理有哪些流程

隨著網際網路的開展,大資料也在逐步顯示出自己的優勢特色,那麼關於大資料的處理流程,你知道多少呢?今天將為大家分享一下,大資料處理的流程,感興趣的小夥伴們一同來看看吧 第一,資料收集 定義 利用多種輕型資料庫來接收發自客戶端的資料,並且使用者可以通過這些資料庫來進行簡略的查詢和處理工作。特色和應戰 併...

資料分析流程

主要使用pandas資料報來處理資料,以及常用到的pandas裡的函式。在這裡我們需要引入庫 import pandas as pd 並且規定下面縮寫 pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd....