文章用紅色字型標記出來的內容是修正後的內容,感謝四川的楊同學對我以前的錯誤提出指正。
終於寫到我最喜歡的乙個的工具(演算法)了,方向分布是蝦神我接觸的第乙個空間統計工具,也是每次講空間統計必須要講的乙個,也是對點資料分析中很有用的乙個工具。
點模式的分析中,一般會考察如下五種內容:
1、點的疏密,包括點資料的分布探索,是否一致、均勻或者不均勻。
2、點的方位,包括點的分布和方向。
3、點的數量:多少(極值和均值)。
4、點的大小:代表的含義(如點乙個點代表多少人口)。
5、其他,如點的一些動態變化等。
其中,我們前面說的好幾種演算法,如中心要素、中位數中心和平均中心,都是關於點方位的分析,那麼今天我們要講的這個演算法,就是同時對點的方向和分布進行分析的一種經典演算法——標準差橢圓。
這演算法最早是由美國南加州大學(universityof southern california)社會學教授韋爾蒂
.利菲弗(d. welty lefever)在
1926
年提出,所以有的書裡面,也把這個演算法稱為lefever's "standard deviationalellipse"(利菲弗方向性分布)(又到每天的歷史起源科普時間……)。
這個演算法最大的特點,就如同他的名詞一樣,是用來度量一組資料的方向和分布的,生成的結果又正如他的別名一樣,會輸出乙個橢圓,如下:
紅色的點是傷寒發病的案例,藍色的河流是長江太湖流域段,從計算的結果來看,發病的資料方向與長江的流向方向基本一致,而範圍較大。
從上圖,我們基本上就可以看出方向分布工具的主要作用了,它可以識別一組資料的方向以及分布的趨勢,並且了解到這份資料是否具有一些特性,至於有哪些特性,我們後面再說。
我們先來看看這個標準差橢圓的生成演算法。
其實演算法很簡單,要畫出乙個橢圓,雖然比畫圓麻煩點,但是也麻煩不了多少,關鍵的引數如下:
1、確定圓心。 2
、確定旋轉角度。 3
、確定xy
軸的長度。
首先是確定圓心,方向分布工具的圓心,直接利用的是算數平均中心來計算橢圓的圓心(算術平均中心請檢視我在
2023年8
月17日寫的《空間統計之八:平均中心和中位數中心》一文)
然後就確定橢圓的形式了,公式如下:
其中,xi和
yi是每個要素的空間位置座標,x和
y是算數平均中心。
sdex
和sdey
就是計算出來的橢圓的方差,總所周知,橢圓的大小取決於方差大小,長半軸表示最大方差,短半軸表示最小方差,在空間統計上面,用x、
y的方差進行計算,得到長短半軸。
然後確定橢圓的方向,以
x軸為準,正北方(
12點方向)為
0度,順時針旋轉,計算公式如下:
最後確定
xy軸的標準差,公式如下:
標準差的作用是確定橢圓的方程,一般橢圓方程如下:
把所有的資料都帶入到公式中,就很容易的把所有的引數都計算出來,接下去只需要再地圖上畫出結果就行。
那麼這個橢圓揭示了一些什麼意義呢?
使用arcgis
的話,方向分布工具除了生成這樣乙個橢圓以外,還會給出如下結果:
其中,shape_leng
和shape_area
是生成的橢圓的周長和面積,單位與你資料的單位相同,這裡我的資料是經緯度的,所以生成的結果只能作為相對參考結果。
centerx
和centery
表示的是橢圓的中心點。
xstddist
和ystddist
表示的x
軸的長度和
y軸的長度。
rotation
表示的是橢圓的方向角度。如下:
結果解讀如下:
1、橢圓的長半軸表示的是資料分布的方向,短半軸表示的是資料分布的範圍,長短半軸的值差距越大(扁率越大),表示資料的方向性越明顯。反之,如果長短半軸越接近,表示方向性越不明顯。如果長短半軸完全相等,就等於是乙個圓了,圓的話就表示沒有任何的方向特徵。 2
、短半軸表示資料分布的範圍,短半軸越短,表示資料呈現的向心力越明顯;反之,短半軸越長,表示資料的離散程度越大。同樣,如果短半軸與長半軸完全相等了,就表示資料沒有任何的分布特徵。 3
、中心點表示了整個資料的中心位置,一般來說,只要資料的變異程度不是很大的話,這個中心點的位置大約與算數平均數的位置基本上是一致的,至於資料變異是什麼情況,請看下面第4點。
4、有的同學會很疑惑,為什麼你畫的這個橢圓,還有很多的點都在外面,沒有把所有的點都包含進去?那麼就是就是「標準差橢圓」這個名詞裡面的「標準差」的含義所在了。 在
arcgis
工具裡面(其他的工具也都差不多),提供了「橢圓大小」(ellipse_size)這個引數,這個引數表示你生成的橢圓的級別,一共有三個,如下表:
三個級別的橢圓,分別表示了你生成的橢圓,能夠包含
68%,
95%和
99%三個級別的資料,我們通過可以指定要表示的標準差數(
1、2 或 3)
來決定你生成的橢圓包含的資料比例。
當要素具有空間正態分佈時(即這些要素在中心處最為密集,而在接近外圍時會逐漸變得稀疏),第一級標準差(預設值)範圍可將約佔總數
68%的輸入要素的質心包含在內。
第二級標準差範圍會將約佔總數
95%的要素包含在內,而
第**標準差範圍則會覆蓋約佔總數
99%的要素的質心。
所以,當你選擇不同標準差等級的時候,你發現你的中心點的位置也可能不同。
當然,作為空間分析工具,方向分布一樣可以進行加權計算,這個計算主要還是與中心點的位置確定以及橢圓標準差等級生成的橢圓大小有關係。
下面我們來通過乙個例項來了解方向分布工具的應用:
一共有兩年的傷寒病資料,如下,紅色的是
2000
年的,藍色是
2001
年的:
個標準差的結果,生成的橢圓如上,具體資料如下:
我們對關鍵性的兩個指標進行對比:
生成面積表示範圍,可以發現
2000
的傷寒病發病情況的範圍要大於
2001
年的,扁率表示他的方向明確性和向心力的程度,
2000
年生成的橢圓扁率遠高於
2001
年的,說明了
2000
的傷寒發病情況,比
2001
年的方向趨勢更明顯。
2000
年生成的橢圓方向與長江的方向基本相相符,所以
2000
年的傷寒發病源與長江的關係較為密切。而
2001
年的發病情況雖然方向性並不如
2000
年的明顯,但是長半軸幾乎與長江垂直,可以基本確認,
2001
年傷寒發病源與長江關係不大,但是呈現向內陸爆發的趨勢。
方向分布工具在空間統計中是綜合能力最突出的工具之一,有著廣泛的應用,在我們的分析和資料探索的時候,能夠起到非常重大的作用。
最後,列出幾個可能的應用:
1、可用來在地圖上標示一組犯罪行為的分布趨勢,並且能夠確定該行為與特定要素(一系列酒吧或餐館、某條特定街道等)的關係。 2
、在地圖上標示地下水井樣本的特定汙染,可以指示毒素的擴散方式,這在部署應急防災策略時非常有用。 3
、對各個物種所在區域的橢圓的大小、形狀和重疊部分進行比較可以分析與物種入侵或者隔離相關的深入資訊。 4
、繪製一段時間內疾病爆發情況的橢圓可用於建立疾病傳播的模型。
白話空間統計之 空間異質性
橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。蘇軾 題西林壁 讀完這首詩,我首先檢討一下自己,我一直誤記這首詩是李白寫的,因為總記得李白寫過有關廬山的,但是仔細一想,李白寫的 飛流直下三千尺,疑是銀河落九天 和我一樣記錯的同學,請一同檢討。看完這首詩,我覺得大家在看看題目,就應該知...
白話空間統計十一 線性方向平均值
前面我們說的都是點資料的分析,今天來說說乙個用於分析線要素的演算法 工具 就是線性方向平均值 lineardirectional mean 總所周知,線要素只有兩個屬性,乙個是長度,第二個就是方向,而對於人類的認知來說,對方向的重要性絲毫不亞於位置的重要性。對線資料進行統計的時候,首先就是了解他們的...
白話空間統計之 Moran s I(莫蘭指數)
前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑 moran s i 首先,moran s i 這個東西,官方叫做 莫蘭指數,是澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred piercemoran 好長的名字,不過一般都簡稱為 帕克 莫蘭,就是...