空間資料探勘與空間大資料的探索與思考(二)

2021-08-17 04:30:39 字數 2019 閱讀 5484

視覺化號稱是資料分析的最後一公里,有時候(更準確的說,是大部分時候),一張圖就夠了。圖1是美國2023年人口統計資料,灰色的球表示所在州的人口數量,而且按照球體的大小,也很輕易的分辨美國的三大人口中心:分別是紐約、芝加哥、洛杉磯,橙色的球代表原住民。如果看的不是圖,而是將這張上的資料列出做成excel表,估計列印20頁沒有問題,但是看乙份二十頁的**容易,還是上只給出下面這樣一張地圖更明白的了解整個美國人口分布呢?自然是不言而喻的。

圖1 美國2023年人口資料統計圖(**於esri官方**)

接下來我們來談一下地理資料平台。這裡有乙個很簡單的例子,首先看兩份資料,第乙份是中國各省的gdp資料,這個資料一般由國家統計局去管理和發布;

第二份是中國地質公園的分布圖,大家都知道,地質公園代表的是某一類地貌特徵,比如雲南的石林,或者汶川**紀念遺址等,這類資料在我國存放在國家地質調查局。

如果沒有什麼意外,這兩份資料應該是老死不相往來的,一般情況下也不會想到國家統計局和地質調查局的這兩份資料會有什麼關聯,但是如果有有一天,乙個級別很高的領導,看見了這個資料,可能會想讓你告訴他,中國的經濟和中國的地質公園或者地貌特徵有怎樣的關聯,你會怎麼做呢?你可能會先到統計局拿資料,再到地調局拿資料,然後組織專家,寫了乙個500頁的報告,提交上去……

但其實領導那麼忙,哪有功夫看你這個500頁的報告呢?他實際上只需要告訴他乙個很簡單的結論,並且讓他很清晰的了解,而且他也不是真正需要精確到極點的資料,只需要你給他乙個答案,使他腦子裡面的資訊形成乙個閉合的決策鏈,這樣就已經就達到目的了。

如果用地理平台來做這個事情的話,不需要複雜的報告,僅僅需要把兩個圖疊在一起就行,下面做乙個gdp分布圖,上面疊乙個地質公園的圖(見下圖)。

這時候你就可以告訴他,中國的地質公園和中國的gdp沒什麼關係。所以我們說地理就是天然的資料平台,任何資料疊在地理上面,通過其空間位置關聯在一起,就能形成完全不同的一套解答方案。所以我們學gis的人在視覺化和匯報方面有天然的優勢,我們有乙個天然資料視覺化平台,地圖就是這個天然的資訊平台,任何資料都可以放在上面。並且通過資料空間化進行橫向的關聯,以得到新的資訊和結論。

這些資料,都是直接浮現在表面上的,所以有些時候光給一張圖是也還是不夠的。

比如像這種情況:如果我是某個學校的校長,有一天教育局局長來我的學校視察,然後我倆在站台上看。課間操鈴聲響了,所有學生都跑出來,局長就問我,下面這些學生裡哪些學生關係好?我作為校長只能回答「對不起我不知道」,局長就會說你這個校長當得不合格,哪些學生關係好都不知道。

再接下去,體育老師的口號響了,所有學生都排得整整齊齊,局長又問我,「剛才學生很亂,你不明白我原諒你,現在他們站得這麼整齊了,請問哪些學生關係好?」我也只能繼續回答不知道。所以在資料分析中,均勻分布和隨機分布的內涵基本上是一樣的。

那麼什麼時候可以知道呢?課間操之後,體育老師說解散,這時候我們再看這個分布情況,就很清楚了,現在可以告訴局長哪些學生關係好,哪些學生關係不好。實際上,這就是地理分析裡面的空間自相關,通過某一類關係,人類可以自然而然地分成不同的類別,這是我很喜歡的乙個例子。

Sql Server 空間資料

1 地理座標系空間需要用geography 平面座標系空間用geometry,計算距離使用stdistance 字串裡經緯度的順序是 經度 空格 緯度 即 longitude latitude 如果要計算兩個lat lon點之間的實際距離就需要將geometry型別轉成geography型別,不然結...

空間資料的採掘

近年來,資料採掘研究多針對於關聯式資料庫,但是空間資料庫系統的發展為我們提供了豐富的空間資料,為資料分析和知識發現展示了廣闊的前景。空間資料探勘技術幫助人們從龐大的空間資料中抽取有用資訊。由於空間資料的數量龐大及空間問題的特殊性,因此發現隱含在空間資料中的特徵和模式,已成為空間資料庫的乙個重要問題。...

基於空間資料庫的空間資料管理

gis空間資料管理已經走出了檔案管理的模式 龔健雅,2004 最初的gis 軟體一般採用檔案方法管理向量圖形資料,利用關聯式資料庫管理系統管理屬性資料。目前主要的gis軟體都採用了商用關聯式資料庫管理系統同時管理圖形和屬性資料。如supermap mapgis geostar arcgis geom...