用VR做資料視覺化的正確姿勢是什麼?

2021-09-23 06:48:05 字數 3780 閱讀 5941

資料視覺化是少數幾個 vr「布道者」非常喜歡說道的利用虛擬實境可能產生變革的領域之一。但是究竟應該如何做呢?現今的資料視覺化領域又有什麼問題呢?本文對傳統的資料視覺化的幾個具體問題進行挖掘,討論理解抽象資訊方面的難題,並**vr如何改變這一切。

本文原作者evan warfel,虛擬實境資料視覺化公司 kineviz 的專案經理,曾經任 hid 環球集團資料科學家,畢業於u.c. berkeley 的認知科學專業。 工作之餘,他還研究人類制定決策的過程問題。

談論資料和虛擬實境的問題有點像雞和蛋的問題——如果不知道人們會如何使用 vr 資料工具,就很難設計良好的vr資料工具。話雖如此,但虛擬實境可以幫助我們提公升概率思維、多維資料的視覺化、高密度資訊的展示、以及提供情境使人們更全面地理解問題。

高維度資料的視覺化

「影象是優秀資料分析的關鍵」——f.j.anscombe

如果是二維或者一維資料集,相應的視覺化方法非常簡單,使用圖或**即可。

上面是著名的 anscombe 四幅圖,其中每個資料集有著同樣的均值、相關係數、方差和最優擬合線。

上面的每乙個資料集中,x 的均值都是 9,y 的均值都是 7.50,x 的方差都是 11,x 和 y 的相關係數是0.816,最優擬合線的方程都是 y=3+5x。換句話說,這四個資料集即使在實際看來,他們本身是完全不同的,但在統計意義上他們卻是相等的。然而這還是最簡單的,因為我們只處理了二維資料。

如果是三維資料,你會想當然地使用三維影象。但是如果是更高維度的資料呢?比如 excel 表中很多行很多列的資料,你可能就無從下手了。實際上,超過三維的資料集都不可能在超三維空間中進行視覺化。

然而,還有其他表示維度的方法。比如說,可以用乙個三角形三邊的長度來表示乙個資料的三個維度。如果你願意,你還可以在三角形中間標註紅藍光譜或者明暗光譜中的顏色,這樣你就可以在乙個視覺化圖中展示五個連續維度。比較每乙個三角形,你就可能發現一些異常或者一些隱藏模式和關係。這就是理論的原理所在。

herman chernoff 在70年代發展了這種理論的變異形式,他不使用三角形的邊長,他用**臉譜的不同特徵來代表資料的不同維度(切爾諾夫臉)。

圖中顯示了 1977 年洛杉磯的生活狀況。四個臉部特徵,加上地理分布和社群分布,這張圖顯示了乙個 6維資料。

你的直覺應該會不喜歡這種資料表示的方法,因為它不好解釋,看起來有點愚蠢,也似乎有些種族歧視的意思。但是我建議你再好好觀察一下——你能看到貧窮和富裕之間的緩衝地帶嗎?

vr 的好處在於,它可以讓你通過直觀地比較兩個桌子的高度或者桌面的摩擦力係數的不同來理解其代表的因子維度的不同。一些實驗表明,維度間的差別程度的不同可以帶來感知權重的不同。

另外,關於這種方法的研究已經覆蓋到心理學和顏色感知的領域。研究者們花費了大量時間測量人們在不同的知覺中如何感知微小和巨大的區別。換句話說,借助 vr 和一些心理學知識,可以使人們理解複雜資料像逛宜家一樣簡單。

高密度的影象

由於乙個數學史上不幸的意外,某種由點和連線線組成的東西也可以叫做影象,比如下圖:

維基百科的力導向圖

圖中每個點代表了乙個維基頁面,每條線代表著頁面間的聯絡。

資料點之間抽象的關係用影象表示是非常直觀的,尤其是在這些聯絡的型別和數量十分重要的情況下。比如,下圖展示了酵母菌和釀酒酵母之間每個基因的關係。

左邊是乙個代表乙個酵母菌基因組的節點邊緣圖;右邊是基因的重要聚類圖

有趣的是,上面這些圖的內部都非常複雜。如果你去查詢「巴拿馬檔案」的資料集,你會發現跟上面這些圖一樣,影象中的連線線非常複雜。

事實是,大多數影象會因為中心部分重疊在一起的複雜連線線而變得難以理解。但是我們最初是因為要看清事物間的關係才使用這些影象。

正如你可能想到的,三維影象視覺化能讓我們在理解上更加容易。比如下圖是乙個三維的視覺化影象,展示了大腦中不同的連線網路。

然而,我們應該發現,這些資料的視覺化影象仍然有過於密集的問題。即使作圖者已經使用演算法把連線線整合在一起了,我們還是很難從影象中明白物件之間究竟有怎樣的聯絡。想象一下,如果你能夠走進圖中的大腦裡,那你可能更容易就能理解腦中到底發生了什麼。

內容提供式的資料視覺化

請對比一下圖表:

兩張圖使用了同樣的資料,但第一幅圖卻是 2023年最誤導人的圖表之一。

上面的圖表作為一張靜態影象,其誤導性來自於它改變了資料的大小、形狀和比例。因為我們看到內容,會想到我們的日常體驗。

使用虛擬實境進行資料視覺化的一大好處是,我們可以不用僅僅展示靜態表示圖,每一張vr表示圖都可以自動變成一種體驗。這意味著讀者可以根據自己的意願來探索一張圖。

vr的拯救作用

當然,vr 資料工具目前仍在初級階段。下面是三個例子,可以生動地說明我上文中提到的內容。

calcflow

第乙個要介紹的是 calcflow,這是加州聖地牙哥分校的數學系研發了用於對 3d 數學概念的視覺化工具。目前,它建立了一系列互動式展示,人們可以通過展示直觀地理解二重積分和粘性流體方程等問題。你可以體驗到 vr 的一些好處:可以改變觀察資料的尺寸,可以在資料中「穿梭」,是的資料更易理解。這種體驗式的展示特點意味著使用者可以做出自己的調整,並觀察這些調整在多維中是如何改變結果的。

deathtools

deathtools 的資料視覺化是將抽象的數字變成真實可觸知的世界,我們對這樣的視覺化資料的理解則完全不同於原有的數字和影象。比如,它將最近中東衝突中的累計死亡人數用屍體袋數量來表示,不同於檢視柱狀圖,你彷彿真的站在成排的屍袋中,真實地體驗戰爭的死亡人數。

正如 deathtools 創始人 ali eslami 所說:「我們的知識儲備中缺少一種感知大數字的能力。我們無法理解和接受大量的死亡。比如1、2、14、20、50 這種數字我們經常會遇到,所以我們會理性地對他們形成一種思維模式。但是當我們遇到 1000、10000、20000 時,這些數字的概念化會越來越難。但是我們仍然可以使用日常中體驗大尺寸物品的視覺模型來理解大數字的意義。」

kineviz

最近,我正在 kineviz 上使用vr基礎上的 3d 影象工具。這個工具專門用來處理高資訊密度資料的。並且,這個工具可以使使用者直觀地感受到資料的顯著不同。

vr 的最大好處就是它可以使人們更輕易地感知資料間的差別,使得資料密度更低,更加直觀。另外,vr也使得資料展示變得更加具有體驗感,資料展示不再需要匹配一些預定的設定。最後,vr 可以讓人們快速改變資料的尺寸,提高使用者的空間感知力,實現過去很難想象的對資料規模的感知。

資料視覺化 什麼是資料視覺化

資料對應的英文單詞是data,從資訊獲取的角度看,資料是對目標觀察和記錄的結果,是現實世界中的時間 地點 事件 其他物件或概念的描述。不同學者對資料的作用也給出不同的定義,大致分為以下3類 視覺化對應的兩個英文單詞 visualize和visualization。visualize是動詞,描述 生成...

用ggsashimi做可變剪下的視覺化

可變剪下的視覺化軟體ggsashimi用r和python來實現,python準備好資料,利用r畫圖。簡單好用,但也折騰了半天,現在把完成本次視覺化的步驟詳細的記錄一下,必備以後用。1.準備視覺化的基因注釋檔案,基因的注釋檔案是gtf格式,每個檔案包含了這個基因的不同型別的可變剪下,可以從整個基因組注...

資料視覺化是什麼,資料視覺化怎麼做最好?

資料視覺化都有乙個共同的目的,那就是準確而高效 精簡而全面地傳遞資訊和知識。視覺化能將不可見的資料現象轉化為可見的圖形符號,能將錯綜複雜 看起來沒法解釋和關聯的資料,建立起聯絡和關聯,發現規律和特徵,獲得更有商業價值的洞見和價值。並且利用合適的圖表直截了當且清晰而直觀地表達出來,實現資料自我解釋 讓...