拓撲學 探尋大資料的內在模式

2022-03-16 02:22:35 字數 2650 閱讀 8358

點選上方「大資料文摘」可以訂閱哦!

如果我們不能明白如何分析它,這些資料有什麼好?

大資料正被**、工業和**所矚目。公司和實驗室不停地產生大量的資料,從氣象資料到攜帶**的使用到醫療記錄,與每件事相關。而每一套資料又和成百個變數相關。

這些資料量之大、規模之複雜,用傳統的方式來尋找資料之間的模式已不能有太多進展。資料分析常常被捧為靈丹妙藥,它無疑具有潛力可被大量應用於解決曾經很棘手的問題。但是,我們必須明白我們在找什麼。

回歸直線顯示一組人的身高和體重之間的關係

統計學101課程裡,總有一兩個講座是關於線形回歸——尋找一組散落在平面裡的點狀資料之間的最佳直線。這樣的圖形經常在一些關於氣候變化的文章裡出現,譬如,當氣溫和其它天氣資料相對時間作圖的時候,或者在經濟**裡以就業或gdp歷史資料來推測未來。

可是,萬一這些點狀資料不是沿著直線排列,而是形成諸如圓形之類的分布呢?

一組圓環上的點集(左)和最佳適匹配直線(右)

顯然,回歸在這種時候沒有用。但這一點,只有當我們可以看到那些點形成了圓形時才知道。

現在想象一下,一組點分布在乙個更高維空間裡的圓。在三維空間,我們也許能看到圓環,但如果我們有更多的變數,正如經常在檢查大型資料集時發生的一樣,我們就有麻煩了。我們怎麼能檢測出圓?或者,更進一步:我們怎麼能告訴計算機找出這個圓?

這些是伴隨著大資料的增長被提出的問題 ,代數拓撲能提供某些答案。

球體和立方體在我看來是一樣

1如何從空間理解大資料

拓撲有時被稱為「橡膠板幾何」。對於拓撲學家來說,球體和立方體是相同的東西。 試想一下,由柔性材料製成的立方體,插入吸管並吹氣,這個立方體後會被吹成乙個球體。像這樣的操作被稱為「變形」(deformation),如果兩個物體之間乙個可變形為另乙個,則它們被認為是相同的。

拓撲學家們通過分配被稱為「不變數」(invariant)的代數物件來學習空間。這些不變數可能如整數一般簡單,但通常是更複雜的代數結構。對資料分析而言,選擇的不變數是「持續同調」(persistent homology)[小編註:在不同到空間解析度下計算空間到拓撲特徵的一種方法。「調」讀作4聲tiáo]。

普通同調測量空間中不能被填充的「洞」的數目。讓我們再來思考乙個球體。如果我們在球面上繪製環路,它形成乙個表面上的二維圓盤;也就是說,我們可以在球體上填滿任何圓環,因此不存在二維的「洞」。與此相對,球體本身的表面形成了乙個不能填充的三維「洞」。

乙個球體表面的閉環;它連成乙個圓盤,因此不加入第一階betti數

使用普通同調來做資料分析的問題是,若計算一組離散資料點的同調性,我們會失望——沒有洞,只有不連續點的集合。第零階betti數會計算有多少個點,但是,因為這樣的資料集裡沒有環形或球體,高階betti數將全部為0。這正是持續同調進入故事的地方。

我們需要把離散點的集合連線在一起。試想,放乙個半徑為r的小球來包圍我們資料集裡的每一點。如果r非常小,那麼沒有球會相交,該集合裡球的betti數是和離散集裡的betti數一樣。

包圍資料點的半徑增大的小球

但是,如果我們允許半徑r增長,那麼這些球將開始接觸,我們可能會得到非平凡的更大的betti數。在動畫中,我們看到一旦r到達一定的閾值,環繞頂部三個點的小球相交成對,幷包含連線三個點的三角形。此外,我們不能填充三角形,因為有乙個小的空白在中間。這意味著在這一階段的一階betti數為1。但是,當r變得更大一點,所有三個球一旦相交後我們可以填充三角形,一階betti數下降到第0。

和以上資料相關的條形碼。在頂端的零階betti數從4降到0,在底部的第一階betti數顯示了兩個短暫的一維同調的出現。

持續同調在半徑增長時跟蹤這些數字,這些數字相對引數r的圖形被稱為「條形碼」。長條形顯示資料裡的特徵可能很顯著(它們持續存在,該術語由此而來)。短條形通常產生於資料中的雜訊,因此可以被忽略不計(或不能被忽略,此時資料的上下文很重要)。

因此,我們所做的是將乙個離散點集轉為更加複雜空間的序列(每個空間對應乙個r),以期比採用簡單的線性回歸更好地對資料進行建模。

當小球半徑增大時,乙個圓圈在空間裡持續存在

上面動畫裡,顯示了如何能以這種方式建模乙個圓上的幾個點。我們已經抑制了點集周圍的小球,當兩點的相關球重疊時,連線兩點;當三個點的相關球重疊時,形成三角形;依此類推。乙個圓圈持續相當長的時間,導致我們猜測我們的資料位於乙個圓圈附近。

拓撲資料分析帶來乙個新的數字影象壓縮方法

2理論之上的應用

史丹福大學的gunnar carlsso是拓撲資料分析的先驅之一。他的小組的第乙個成功研究之一,是發現了自然影象的空間拓撲。這組資料含有從黑白數碼**裡取樣的幾百億個3×3畫素的小塊。每個畫素由乙個0到255的灰度值的數值描述,每個3×3小塊對應乙個9維空間中的點,每個座標被賦予其相關畫素的灰度值。在過濾掉常量小塊和進行歸一化處理後,這個空間就在乙個7維球體內。乍一看,資料集似乎填充了球體;但是,將注意力限制在點更緊密聚集的區域,結構就自然呈現出來。

乙個klein瓶像乙個mobius帶:它沒有邊界

鑑於這一成功,carlsson和他的一些同事成立了ayasdi,乙個擁有著不斷增長的銀行、金融、**等行業客戶花名冊的公司。他們使用這些以及其它技術來分析糖尿病、乳腺癌和心肺疾病資料。結果令人鼓舞——有著高存活率的、用傳統的統計方法不可見的某些患者亞組,也許可通過這些技術被發現。

但是,這些方法真正的成功前景,在於定製針對個人的**和解決方案方面的可能性。大型資料集的分析使我們看到,例如,一度被認為是80%有效的藥物,事實上是對80%可通過某個標記識別的患者有100%的療效 。拓撲資料分析,提供了另一種工具來推進這樣的分析,通常是識別之前被隱藏的特徵。

拓撲學(代數拓撲學)的有趣應用

代數幾何學又是一次數形結合的典範,一次從現象到本質的探索。牆有兩個釘子,按照通常的方法將畫掛上去,如圖所示,當乙個釘子掉下 來時,畫還會掛在另乙個釘子。問題 如何將畫掛起來,使得拔掉其中任何乙個釘子,畫就會掉下來?順時針纏繞第乙個釘子一周記作a,逆時針纏繞第乙個釘子一周記作 a 1 順時針纏繞第二個...

用球面對映巧解分贓難題 拓撲學的另一妙用

一條項鍊上有n種型別的珠寶,每種珠寶的數量均為偶數。問至少可以切多少刀,可以將所有珠寶均分?首先介紹borsuk ulam theorem 想象乙個三維空間中的球面被扭曲壓縮到二維平面上,由於變形是連續的,因此球面上有許多點重合在了一起。borsuk ulam 定理告訴我們,總能找到這樣的兩個點,它...

每日互動 巧用大資料,探知人 時間 空間的內在聯絡

資料時代的到來,對城市規劃產生了重大意義。大資料可以更客觀快速地識別人口增長過快 資源緊張 環境惡化 交通擁堵等城市問題,同時,有助於提高城鎮化質量,實現精細化和動態管理,進而提公升城市管理成效和改善市民生活質量。浙江每日互動網路科技股份 個推 作為專業的資料智慧型服務商,除了為移動應用開發者提供運...