點模式的分析中,一般會考察如下五種內容:
1、點的疏密,包括點資料的分布探索,是否一致、均勻或者不均勻。
2、點的方位,包括點的分布和方向。
3、點的數量:多少(極值和均值)。
4、點的大小:代表的含義(如點乙個點代表多少人口)。
5、其他,如點的一些動態變化等。
其中,我們前面說的好幾種演算法,如中心要素、中位數中心和平均中心,都是關於點方位的分析,那麼今天我們要講的這個演算法,就是同時對點的方向和分布進行分析的一種經典演算法——標準差橢圓。
這演算法最早是由美國南加州大學(universityof southern california)社會學教授韋爾蒂
.利菲弗(d. welty lefever)在
1926
年提出,所以有的書裡面,也把這個演算法稱為lefever『s "standard deviationalellipse"(利菲弗方向性分布)(又到每天的歷史起源科普時間……)。
這個演算法最大的特點,就如同他的名詞一樣,是用來度量一組資料的方向和分布的,生成的結果又正如他的別名一樣,會輸出乙個橢圓,如下:
紅色的點是傷寒發病的案例,藍色的河流是長江太湖流域段,從計算的結果來看,發病的資料方向與長江的流向方向基本一致,而範圍較大。
從上圖,我們基本上就可以看出方向分布工具的主要作用了,它可以識別一組資料的方向以及分布的趨勢,並且了解到這份資料是否具有一些特性,至於有哪些特性,我們後面再說。
我們先來看看這個標準差橢圓的生成演算法。
其實演算法很簡單,要畫出乙個橢圓,雖然比畫圓麻煩點,但是也麻煩不了多少,關鍵的引數如下:
1、確定圓心。 2
、確定旋轉角度。 3
、確定xy
軸的長度。
這些引數,演算法裡面都給了我們很清晰的公式,只要依照公式來計算就可以了。
首先是確定圓心,方向分布工具的圓心,直接利用的是算數平均中心來計算橢圓的圓心,公式如下:
其中,xi和yi
是每個要素的空間位置座標,x和
y是算數平均中心(算術平均中心請檢視我在
2023年8
月17日寫的《空間統計之八:平均中心和中位數中心》一文)。
sdex
和sdey
就是最後計算出來的橢圓的圓心。
然後確定橢圓的方向,以
x軸為準,正北方(
12點方向)為
0度,順時針旋轉,計算公式如下:
最後確定
xy軸的長度,公式如下:
把所有的資料都帶入到公式中,就很容易的把所有的引數都計算出來,接下去只需要再地圖上畫出結果就行。
那麼這個橢圓揭示了一些什麼意義呢?
使用arcgis
的話,方向分布工具除了生成這樣乙個橢圓以外,還會給出如下結果:
其中,shape_leng
和shape_area
是生成的橢圓的周長和面積,單位與你資料的單位相同,這裡我的資料是經緯度的,所以生成的結果只能作為相對參考結果。
centerx
和centery
表示的是橢圓的中心點。
xstddist
和ystddist
表示的x
軸的長度和
y軸的長度。
rotation
表示的是橢圓的方向角度。如下:
結果解讀如下:
1、橢圓的長半軸表示的是資料分布的方向,短半軸表示的是資料分布的範圍,長短半軸的值差距越大(扁率越大),表示資料的方向性越明顯。反之,如果長短半軸越接近,表示方向性越不明顯。如果長短半軸完全相等,就等於是乙個圓了,圓的話就表示沒有任何的方向特徵。 2
、短半軸表示資料分布的範圍,短半軸越短,表示資料呈現的向心力越明顯;反之,短半軸越長,表示資料的離散程度越大。同樣,如果短半軸與長半軸完全相等了,就表示資料沒有任何的分布特徵。 3
、中心點表示了整個資料的中心位置,一般來說,只要資料的變異程度不是很大的話,這個中心點的位置大約與算數平均數的位置基本上是一致的,至於資料變異是什麼情況,請看下面第4點。
4、有的同學會很疑惑,為什麼你畫的這個橢圓,還有很多的點都在外面,沒有把所有的點都包含進去?那麼就是就是「標準差橢圓」這個名詞裡面的「標準差」的含義所在了。 在
arcgis
工具裡面(其他的工具也都差不多),提供了「橢圓大小」(ellipse_size)這個引數,這個引數表示你生成的橢圓的級別,一共有三個,如下表:
三個級別的橢圓,分別表示了你生成的橢圓,能夠包含
68%,
95%和
99%三個級別的資料,我們通過可以指定要表示的標準差數(
1、2 或 3)
來決定你生成的橢圓包含的資料比例。
當要素具有空間正態分佈時(即這些要素在中心處最為密集,而在接近外圍時會逐漸變得稀疏),第一級標準差(預設值)範圍可將約佔總數
68%的輸入要素的質心包含在內。
第二級標準差範圍會將約佔總數
95%的要素包含在內,而
第**標準差範圍則會覆蓋約佔總數
99%的要素的質心。
所以,當你選擇不同標準差等級的時候,你發現你的中心點的位置也可能不同。
當然,作為空間分析工具,方向分布一樣可以進行加權計算,這個計算主要還是與中心點的位置確定以及橢圓標準差等級生成的橢圓大小有關係。
下面我們來通過乙個例項來了解方向分布工具的應用:
一共有兩年的傷寒病資料,如下,紅色的是
2000
年的,藍色是
2001
年的:
個標準差的結果,生成的橢圓如上,具體資料如下:
我們對關鍵性的兩個指標進行對比:
生成面積表示範圍,可以發現
2000
的傷寒病發病情況的範圍要大於
2001
年的,扁率表示他的方向明確性和向心力的程度,
2000
年生成的橢圓扁率遠高於
2001
年的,說明了
2000
的傷寒發病情況,比
2001
年的方向趨勢更明顯。
2000
年生成的橢圓方向與長江的方向基本相相符,所以
2000
年的傷寒發病源與長江的關係較為密切。而
2001
年的發病情況雖然方向性並不如
2000
年的明顯,但是長半軸幾乎與長江垂直,可以基本確認,
2001
年傷寒發病源與長江關係不大,但是呈現向內陸爆發的趨勢。
方向分布工具在空間統計中是綜合能力最突出的工具之一,有著廣泛的應用,在我們的分析和資料探索的時候,能夠起到非常重大的作用。
最後,列出幾個可能的應用:
1、可用來在地圖上標示一組犯罪行為的分布趨勢,並且能夠確定該行為與特定要素(一系列酒吧或餐館、某條特定街道等)的關係。 2
、在地圖上標示地下水井樣本的特定汙染,可以指示毒素的擴散方式,這在部署應急防災策略時非常有用。 3
、對各個物種所在區域的橢圓的大小、形狀和重疊部分進行比較可以分析與物種入侵或者隔離相關的深入資訊。 4
、繪製一段時間內疾病爆發情況的橢圓可用於建立疾病傳播的模型。
白話空間統計之九 方向分布(標準差橢圓)修正版
文章用紅色字型標記出來的內容是修正後的內容,感謝四川的楊同學對我以前的錯誤提出指正。終於寫到我最喜歡的乙個的工具 演算法 了,方向分布是蝦神我接觸的第乙個空間統計工具,也是每次講空間統計必須要講的乙個,也是對點資料分析中很有用的乙個工具。點模式的分析中,一般會考察如下五種內容 1 點的疏密,包括點資...
均值,方差,標準差
對於一維資料的分析,最常見的就是計算平均值 mean 方差 variance 和標準差 standard deviation 在做 特徵工程 的時候,會出現缺失值,那麼經常會用到使用 平均值 或者 中位數等進行填充。平均值平均值的概念很簡單 所有資料之和除以資料點的個數,以此表示資料集的平均大小 其...
python numpy實現 標準差,方差
使用numpy可以做很多事情,在這篇文章中簡單介紹一下如何使用numpy進行方差 標準方差 樣本標準方差 協方差的計算。variance 方差 方差 variance 是概率論中最基礎的概念之一,它是由統計學天才羅納德 費雪1918年最早所提出。用於衡量資料離散程度,因為它能體現變數與其數學期望 均...