視覺化 資料視覺化三節課之一 視覺化的意義

2021-10-14 16:50:21 字數 3295 閱讀 3562

「 推測未來將要發生什麼的最好方式,就是記住過去曾經發生了什麼。 」—— 喬治·薩維爾

金錢永不眠,屠夫問候各位早安。

近期因為工作需要,屠夫梳理了自己在投資和工作實踐中對「資料視覺化」的經驗和思考。我將用三節課講述「資料視覺化」的話題,希望給你一些啟發。

有句話叫「一圖勝千言」,對於看似複雜難懂的資料而言,尤其如是。資料視覺化,是將資料轉換成圖或表進行呈現,以一種更直觀的方式展現資料。對於經常需要用資料、做分析、理邏輯的投資者來說,資料視覺化是一項利器。

在了解知識、技能或工具前,屠夫總喜歡先了解它的「作用」,或者說「它究竟能解決什麼問題」。資料視覺化和資料緊密相關,更具體地說是和「資料分析」緊密相關。所以,對於任何乙個想要了解視覺化的人來說,弄懂「資料」和「分析」解決了什麼問題應當排在首位。關於「資料究竟解決什麼問題」,屠夫歸結為「five」4個字母:

一年前寫的《資料的f.i.v.e.用法》裡的「i」是「inspiration 啟發」,如今覺得還是改為「insight 洞察」更貼切**,是資料應用的最高端形態。

從資料獲得啟發,以資料驗證想法,用資料評估現狀,都服務於對未來的**,最好能夠「運籌帷幄之中,決勝千里之外」。作為最高端形態,**又是困難的。理想模型在落地時往往需要層層假設,這些假設裡任何乙個引數的偏差,都有可能「失之毫釐謬以千里」。

正如《關於**,你應該明白的3個道理》所說,**的尺度越小越精確,卻越不容易準確。所以,在**的精確性和準確性之間,最終取得的妥協往往是「模糊的正確」。

洞察,是假設和靈感的**。許多規律在得到嚴謹的資料驗證之前,都是先從歷史資料中獲得洞察。我們可以從標普500和滬深300的部分歷史資料中得到「寬基指數長期**」的想法,這就是資料的「洞察」作用,而且往往是通過資料視覺化實現的。至於這個想法到底對不對,要用資料加以驗證才知道。

驗證,是資料驅動決策的試金石。一些似是而非的假設和靈感可能將人帶入歧途,而用資料進行驗證,將大大減少這類情況發生。

驗證的方式有許多:

在投資裡,對量化策略進行「回測」,是典型的驗證;資料分析時,構造蒙特卡洛模擬進行試驗,也是驗證;網際網路行業,採用a/b測試檢驗策略有效性,同樣是驗證。

驗證的天花板是 「absence of evidence」 ——「沒有證據證明您有癌症」和「有證據證明您沒有癌症」,不是一碼事。感興趣的同學可以看看《決策與判斷的誤區》中的詳細解釋。評估,是使用資料的基本立足點。資料的「評估」式用法,實際上是通過資料構造出乙個框架,然後將現狀與框架對比。

可以對同一物件,橫跨不同的時間段,縱向對比;也可以對多個物件,選取同樣的時間段,橫向對比。

屠夫曾以「地圖」和「六分儀」作比喻:

**就好比使用地圖,而評估則是使用六分儀。

先以六分儀測量出經緯度,確定「當前在哪兒」,使用地圖時才會心中有數;先用資料進行評估,判別清楚當前的狀況,你的**才不會成為無源之水。

資料可以用來做什麼?屠夫的看法是:【資料能用於**】**是資料應用的聖杯,是啟發、驗證和評估的最終目標【資料能帶來洞察】在歷史資料的啟發下,我們可以形成新的靈感或假設【資料能驗證假設】經過驗證的假設才有機會成為結論,反之只是一種猜想【資料能評估現狀】有資料支撐的現狀評估,讓**和驗證成為有根之木。

有了資料,還需要分析才能解決問題。

「分析」究竟能解決哪些問題?屠夫歸結為4類:是什麼、為什麼、怎麼辦和好不好。

回答「是什麼」的問題,屬於描述統計。我們日常見到的趨勢折線圖、頻率分布直方圖,都是通過對資料特徵進行描述,一般稱之為描述統計。立足於歷史和現狀,側重在現象和特性的展示。「是什麼」其實並不算真正意義上的分析,許多資料看板和bi都能實現,其威力大小取決於使用資料的人。然而這並不妨礙描述統計在分析領域的地位 —— 它是許多規律、假設和猜想的源頭。除此之外,如果回答的是「未來是什麼」,這種描述又帶上了**色彩了。

回答「為什麼」的問題,屬於歸因分析。「歸因分析」一般指網際網路渠道運營對不同渠道產生的價值貢獻進行歸因。屠夫借這個詞推而廣之,將「尋求原因和解釋」一類的「為什麼」問題,都算作歸因分析。人類是一種對「解釋」有著極度狂熱的動物。當我們通過描述性統計發現了一些現象時,自然而然會想要知道現象背後的根源,以便復現、加強或者削弱這類現象。

回答「怎麼辦」的問題,屬於策略分析。網際網路行業有不少資料分析崗位,但是 ——只解答「是什麼」,充其量就是人肉取數工具;只解答「為什麼」,不過是產出專題分析報告;只解答「好不好」,只能完成效果覆盤和回測。

上述3者聽起來都不夠給力,是因為你的分析,沒有轉化成可操作的策略,分析結果距離落地太遠了。

上面是網際網路領域的例子,對於投資領域來說更好理解:制定投資策略,通過分析確定約束規則,決定在什麼條件該做什麼事,就是策略分析。

回答「好不好」的問題,屬於效果檢驗。投資領域提到的「歷史回測」,和職場工作裡常常需要進行「效果覆盤」,都是在回答「好不好」的問題。仔細想想就會發現,「好不好」其實和上面提到的「驗證」關聯非常緊密。事實上,資料分析裡有一部分工作就是用資料來驗證效果,和預期作對比確定「好不好」。

分析能解決哪些問題?屠夫的看法是:【回答「是什麼」】描述統計,可以展示現象和特性,立足歷史和現狀,是規律和猜想的源頭。【回答「為什麼」】歸因分析,可以深挖現象背後的原因,通過回溯根源,最終利用這些現象。【回答「怎麼辦」】策略分析,是為了將分析轉化成可操作、可落地的、實實在在的策略。【回答「好不好」】效果檢驗,是為了驗證落地操作後的結果是否符合預期。

說到這裡,我們不妨把「資料」和「分析」的作用,做乙個連線。回答「是什麼」問題時,需要借助資料產生「洞察」,在一定框架對比之下進行「評估」,還可以對未來的情況進行「**」:

當我們希望深入分析、挖掘有用結論時,視覺化可以幫助我們發現規律、理清思路。比如下面這張來自《經濟學人》的網路圖,把近20年美國國會的投票記錄進行視覺化。如果兩名參議員對一項法案投出相同一票,就會以線相連。從圖中不難看出,美國國會的黨派分歧越來越嚴重。

以上就是第一節課的內容,下週將為大家帶來第二節課 —— 「視覺化的使用」,敬請期待!

題圖來自pexels,基於cc0協議。

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

資料視覺化

資料視覺化主要旨在借助於圖形化手段,清晰有效地傳達與溝通資訊。但是,這並不就意味著資料視覺化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的 資料集...

資料視覺化

畫餅圖 def print pie input data res for each in input data res each res.get each,0 1 label x for j in res fig plt.figure plt.pie x,labels label,autopct 1...