要說p、
z之前(本文的p、
z寫法,請忽略大小寫),我們先看看乙個中學化學的概念:
ph值。
另外,還要糾正乙個說法,
p是乙個值(
pvalue
),而z
是乙個得分(
z scores),
上篇文章中,稱謂出錯了。
就像上面那個
ph試紙的標尺,從中間往兩邊延伸,表示酸鹼的強度。理論上,自然界的物質,基本上以
7為中心的正態分佈,就像下面這樣:
相對於極度的強酸和極度的強鹼,在自然界中的含量都是比較少的,更多的都是中性或者是弱酸或者弱鹼的物質。 ph
值就是用來度量酸鹼度的東東,那麼我們今天要說的p、
z就類似於
ph值這樣乙個概念,也是用來衡量空間分布模式,而且最關鍵的,它的值也有乙個和
ph試紙一樣的參考標尺。
首先看看,空間分布的模式,一般來說,有三種,分別是離散的、隨機的、和聚合的。
離散的概念就是指觀測的每個資料之間的差異程度,離散程度越大,差異性就越大。
聚合與離散正好相反,表示在一定區域內的相關程度,就是聚合程度越大,相關性就越大。
隨機就不用說了,純粹的無模式,你既不能從隨機資料中獲取結論,也發現不了規律和模式。
拿到資料之後,我們都要進行零假設,然後驗證這份資料是不是具有隨機模式,如果有很大的概率是隨機模式,那麼這份資料的可分析性,基本上就微乎其微了(比如布朗運動的運動規律,估計沒有哪個人會無聊的去做研究,一方面根本就研究不出什麼結果來嘛,另一方面是隨機結果的分析也不具有可重現性)。 p
值和z得分分別表什麼呢? p
值(p-value,
probability,pr
),代表的是概率。它是反映某一事件發生的可能性大小。在空間相關性的分析中,p值表示所觀測到的空間模式是由某一隨機過程建立而成的概率。比如我說,你計算出來的p值是
1,那就表示你用於計算的這份資料,
100%
是隨機生成的了(當然,不可能是1的,
0.5以上就也不得了)。如果是
0.1,就表示只有
10%的可能性是隨機生成的結果。
這樣看來,
p值是越小越好,但是小到什麼樣的程度才會最好呢?後面我們會就這個問題繼續討論。 z
得分(z
scores
)表示標準差的倍數(standarddeviations)。
先看看「標準差」是什麼,在官方的解釋是:「總體各單位標準值與其平均數離差平方的算術平均數的平方根」,好吧,我知道這個概念有點繞口,你就知道記住「標準差能反映乙個資料集的離散程度」,就可以了。 那麼
z得分,就是標準差的倍數(有正負之分),比如
z得分是
+2.5
,就表示你的資料計算出來,得到的結果是標準差的正
2.5倍。反之,如果你算出來的是
-2.5,
那麼就表示你的結果是標準差的負
2.5倍。 p
值和z得分,一般都是一起出現的,如下圖所示:
可以看見,p值與
z值是有相關性的。上面這個標尺就是p值和
z得分的
"ph試紙標準比色卡"。
按照這個分布趨勢,我們可以看出,資料高度聚集和高度離散,都是小概率的事件。如果你計算出來的p值和
z得分,被分布在了兩端,就說明你的資料出現隨機模式的概率非常低了。
一般來說,要進行資料分析,我們首先就要設立乙個置信度,也就是說,你要設定你的資料,起碼要有多大的可能性,被落在你期望的區間內。
如,一拿到資料,我們最先就要想,這份資料起碼應該有絕大部分的值,不是隨機的(也就說,是應該有規律的),這個絕大部分到底應該被量化為多少呢?一般來說,我們會選擇
90%,或者
95%或者
99%。那麼
99%是最極端的情況,表示你能夠完全的確認,這份資料沒有任何的隨機可能(只有
1%的可能是隨機建立的),完全的接受了零假設。
下表顯示了不同置信度下未經校正的臨界
p 值和臨界 z 得分。
z 得分(標準差)
p 值(概率)
置信度< -1.65 或 > +1.65
< 0.10
90%< -1.96 或 > +1.96
< 0.05
95%< -2.58 或 > +2.58
< 0.01
99%
「未經校正」就所謂的「經驗引數」,當然還有乙個「錯誤發現率(fdr)」工具,可以對p 值的臨界點進行校正。這些校正後臨界值會等於或小於上面的表所示的值。
對於這個
fdr工具,先挖個坑,以後填。
最後,我們最後來解讀乙份資料
這個是通過
arcmap
的全域性莫蘭指數計算出來的結果,我們暫時跳過期望指數和方差,直接看我們這幾天講的內容。
莫蘭指數是大於0.7
,z得分是大於
1.96,p
值為大於
0.04
小於0.05
,對照上面那個對比標尺,所以就能得出以下的結果: 1
、莫蘭指數是正數,而且大於
0.7,就表示這份資料具有空間正相關性,資料集的用於分析的值與空間聚集度成正比。 2
、p值小於0.0
5,所以本資料是隨機生成的概率只有5%(
95%的置信度)。 3
、z得分大於
1.96
,說明這份資料的呈現了明顯的聚類特徵。
那麼總體說,
p值代表資料**的可靠性,
z得分和莫蘭指數都表示此資料有明顯的規律。
最後來看看,這是乙份什麼資料:
這是北京市
2023年9
月的房價資料(友情感謝小強同學提供)。這份資料是通過爬蟲從網路上扒下來的,自然不會是隨機生成,而且房價的資料確實是明顯有聚集特性和空間正相關的。
這樣,通過計算,驗證了我們的猜測和觀點。 關於
p值和z得分的內容,後面還有,未完待續。
白話空間統計之四 P值和Z值(上) 零如果
本來今天想要講講軟體操作的,後來發現好像還有好幾個重要的指標沒有說,乾脆等所有說完在講操作吧。否則操作出來的結果會發現大量的 不明覺厲 首先是空間統計裡面非常神奇的兩個值 p值和 z值。要說這兩個值之前。還是要複習一下統計學的概念。畢竟空間統計的理論基礎還是建立在經典統計學上面的。首先,統計學裡面。...
白話空間統計之 空間異質性
橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。蘇軾 題西林壁 讀完這首詩,我首先檢討一下自己,我一直誤記這首詩是李白寫的,因為總記得李白寫過有關廬山的,但是仔細一想,李白寫的 飛流直下三千尺,疑是銀河落九天 和我一樣記錯的同學,請一同檢討。看完這首詩,我覺得大家在看看題目,就應該知...
白話空間統計之 Moran s I(莫蘭指數)
前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑 moran s i 首先,moran s i 這個東西,官方叫做 莫蘭指數,是澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred piercemoran 好長的名字,不過一般都簡稱為 帕克 莫蘭,就是...