前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑:
moran's i
。首先,
moran's i
這個東西,官方叫做:莫蘭指數,是澳大利亞統計學家派屈克
·阿爾弗雷德·皮爾斯·莫蘭
(patrick alfred piercemoran)(好長的名字,不過一般都簡稱為:帕克
·莫蘭,就是下圖這位中年帥哥了),在
1950
年提出的。這一年,韓戰爆發。
莫蘭同學
1917
年出生在澳大利亞的雪梨,後來考入了劍橋大學,第二次世界大戰的時候,加入了盟軍,並且因為在數學和物理學上面的特長,被安排在劍橋大學的外彈道學實驗室(external ballistics laboratory)負責火箭的研究工作。戰爭結束後,任教於牛津大學,並且就在牛津任教期間,提出了關於莫蘭指數的問題。
另外再加一點點小花絮,莫蘭同學終生未獲得博士學位,但是據他晚年回憶,他似乎對這個事情一直感到驕傲(自己並非博士,但是帶出了無數的博士生)。
那麼莫蘭指數到底是個啥東西呢?莫蘭指數一般是用來度量空間相關性的乙個重要指標。
一般說來,莫蘭指數分為全域性莫蘭指數(globalmoran's i)和
安瑟倫區域性莫蘭指數(anselinlocal moran's i)後者是美國亞利桑那州立大學地理與規劃學院院長
luc anselin教授
在1995
年提出的,後面我們會說到。
今天就簡單說說全域性莫蘭指數,也是狹義上的莫蘭指數。
莫蘭指數是乙個有理數,經過方差歸一化之後,它的值會被歸一化到
-1.0
——1.0
之間。(如果有喜歡看數學公式的,我最後貼出了全域性莫蘭指數的計算公式,這裡是科普性質的,我就不貼數學公式來虐待大家的大腦了。
當然,這個歸一化是一般的情況,根據某些特殊的情況,也會計算出一些不在這個範圍內的值,最後來討論為什麼會超出這個範圍。
全域性莫蘭指數計算完成之後,全部的要素,就會給出你乙個關於全部資料的相關性的數值(反之,區域性莫蘭指數,就每個要素都會給你乙個相關性數值了,這個以後在說)。所以我們可以根據他給出的值,來看當前你需要計算的資料結果了。
moran's i >0表示空間正相關性,其值越大,空間相關性越明顯,
moran's i <0表示空間負相關性,其值越小,空間差異越大,否則,moran's i = 0,空間呈隨機性。
這裡需要注意一下啊,空間差異和空間異質性是不同的概念。
空間差異(spatialdisparity)是指不同地域範疇因為(社會、經濟等)發展水平及其結構不同,而產生的差異。
而空間異質性(spatialheterogeneity)是指因為空間位置的不同而引發的獲取到不同的資料。
所以二者切不可混為一談。
最後,我們們來看看,什麼叫做正相關,什麼叫做負相關。
所謂的相關,就是指相互關係,正相關,就是隨著自變數的增長,應變數也隨著增長,比如蝦神的年紀和血壓,就是標準的正相關……。而負相關當然就是相反了,隨著自變數的增長而減少,比如蝦神的年紀和體力……
那麼空間上面的正相關,就是指隨著空間分布位置(距離)的聚集,相關性就也就越發顯著。空間上的負相關就正好相反了,隨著空間分布位置的離散,反而相關性變得顯著了。
像如下我採用中國行政區劃計算出來的結果:
整個圖表可以看出來,人口數和患病的人數,都與空間資訊成正相關,就是說,空間分布聚集度大的地方,人口數和患病人數也相應多。
但是可以看見的,患病人數,隨著時間推移,他的莫蘭指數在上公升,而人口數隨著年份,莫蘭指數在下降,這說明了中國人口的數量慢慢的與空間分布的相關性在減弱,而患病人數與空間分布的相關性在增加。
當然,莫蘭指數只是在衡量空間相關性時候的乙個重要指標,並不完全能夠代表空間相關性,還需要有其他的資料進行驗證和綜合考量。
下面部分部分僅供不怕死腦細胞的同學參考:(**於
arcgis for destkop
的幫助文件) 1
、全域性莫蘭指數的公式:
2、剛才討論了,莫蘭指數一般是在-1
——1之間,那麼有時候突然算出來超出這個區間的資料,是怎麼回事呢?是不是軟體出了
bug?
答案是和軟體
bug無關。
通常,global moran's i 指數介於 -1.0 到 1.0 之間。
是只有對
我們權重進行了行標準化
(行標準化的意思,就是在做空間距離矩陣的時候,對矩陣中的每一行,求和後,每個元素除以所在行元素之和這種標準化操作)
時才會這樣。如果
沒有對權重進行行標準化處理,則指數值可能會落在-1.0 到 1.0 的範圍之外,這表示引數設定有問題。最常見的問題如下:
輸入的資料嚴重偏斜(建立資料值的直方圖可了解此情況),空間關係的概念化或距離範圍的設定使得某些要素的相鄰要素非常少。
global moran's i 統計量是漸進正態的,這意味著,對於偏斜資料,每個要素至少需要具有 8 個相鄰要素。為距離範圍或距離閾值引數計算的預設值可確保每個要素至少具有 1 個相鄰要素,但這可能不夠,尤其是在輸入
資料中的有的值
出現嚴重偏斜時。
使用反距離空間關係的概念化,並且反距離非常小。
關於反距離過小的問題,是因為在選擇反距離的冪的時候,為了突出拉伸,選擇了乙個過高的冪,這樣就會把反距離(距離的倒數)變得非常的小。看下面關於反距離中冪的說明:
3.未選擇行標準化,但應選擇。除非聚合方案與所分析的字段直接相關,否則,只要對資料進行了聚合處理,就應選擇行標準化。
好,關於全域性莫蘭值的介紹今天先到這裡,下次我們來看看在
arcgis
裡面如何使用這個工具來進行計算。
白話空間統計之 空間異質性
橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。蘇軾 題西林壁 讀完這首詩,我首先檢討一下自己,我一直誤記這首詩是李白寫的,因為總記得李白寫過有關廬山的,但是仔細一想,李白寫的 飛流直下三千尺,疑是銀河落九天 和我一樣記錯的同學,請一同檢討。看完這首詩,我覺得大家在看看題目,就應該知...
白話空間統計十九 熱點分析 上
白話空間統計十九 熱點分析 上 哈羅,各位好,話說蝦神已經消失很久了,很多人在問是不是停止更新了?那肯定是不可能的,蝦神發下巨集願,要把白話空間統計寫完的。只不過這段時間遇上各種加班和一年一度的使用者大會,所以就斷掉了一段時間 好吧,廢話不多說,進入正題。蝦神回歸寫的第一篇,就是大家期盼已久 蝦神自...
白話空間統計十九 熱點分析(中)
在前面的話 白話空間統計系列還繼續更新,因為這段時間在對 使用r語言進行空間統計 系列進行翻譯翻譯和編寫,所以白話空間統計系列和使用r語言進行空間統計可能會交替出現,給大家的閱讀帶來的不便,請大家諒解 其實蝦神想說的心裡話是 你們需要的去翻蝦神的歷史文章,複習一下前面的內容吧!喔呵呵呵呵!前文再續,...