白話空間統計之四 P值和Z得分(中)

2021-07-04 06:03:05 字數 3360 閱讀 2643

要說p、

z之前(本文的p、

z寫法,請忽略大小寫),我們先看看乙個中學化學的概念:

ph值。

另外,還要糾正乙個說法,

p是乙個值(

pvalue

),而z

是乙個得分(

z scores),

上篇文章中,稱謂出錯了。

就像上面那個

ph試紙的標尺,從中間往兩邊延伸,表示酸鹼的強度。理論上,自然界的物質,基本上以

7為中心的正態分佈,就像下面這樣:

相對於極度的強酸和極度的強鹼,在自然界中的含量都是比較少的,更多的都是中性或者是弱酸或者弱鹼的物質。 ph

值就是用來度量酸鹼度的東東,那麼我們今天要說的p、

z就類似於

ph值這樣乙個概念,也是用來衡量空間分布模式,而且最關鍵的,它的值也有乙個和

ph試紙一樣的參考標尺。

首先看看,空間分布的模式,一般來說,有三種,分別是離散的、隨機的、和聚合的。

離散的概念就是指觀測的每個資料之間的差異程度,離散程度越大,差異性就越大。

聚合與離散正好相反,表示在一定區域內的相關程度,就是聚合程度越大,相關性就越大。

隨機就不用說了,純粹的無模式,你既不能從隨機資料中獲取結論,也發現不了規律和模式。

拿到資料之後,我們都要進行零假設,然後驗證這份資料是不是具有隨機模式,如果有很大的概率是隨機模式,那麼這份資料的可分析性,基本上就微乎其微了(比如布朗運動的運動規律,估計沒有哪個人會無聊的去做研究,一方面根本就研究不出什麼結果來嘛,另一方面是隨機結果的分析也不具有可重現性)。 p

值和z得分分別表什麼呢? p

值(p-value,

probability,pr

),代表的是概率。它是反映某一事件發生的可能性大小。在空間相關性的分析中,p值表示所觀測到的空間模式是由某一隨機過程建立而成的概率。比如我說,你計算出來的p值是

1,那就表示你用於計算的這份資料,

100%

是隨機生成的了(當然,不可能是1的,

0.5以上就也不得了)。如果是

0.1,就表示只有

10%的可能性是隨機生成的結果。

這樣看來,

p值是越小越好,但是小到什麼樣的程度才會最好呢?後面我們會就這個問題繼續討論。 z

得分(z

scores

)表示標準差的倍數(standarddeviations)。

先看看「標準差」是什麼,在官方的解釋是:「總體各單位標準值與其平均數離差平方的算術平均數的平方根」,好吧,我知道這個概念有點繞口,你就知道記住「標準差能反映乙個資料集的離散程度」,就可以了。 那麼

z得分,就是標準差的倍數(有正負之分),比如

z得分是

+2.5

,就表示你的資料計算出來,得到的結果是標準差的正

2.5倍。反之,如果你算出來的是

-2.5,

那麼就表示你的結果是標準差的負

2.5倍。 p

值和z得分,一般都是一起出現的,如下圖所示:

可以看見,p值與

z值是有相關性的。上面這個標尺就是p值和

z得分的

"ph試紙標準比色卡"。

按照這個分布趨勢,我們可以看出,資料高度聚集和高度離散,都是小概率的事件。如果你計算出來的p值和

z得分,被分布在了兩端,就說明你的資料出現隨機模式的概率非常低了。

一般來說,要進行資料分析,我們首先就要設立乙個置信度,也就是說,你要設定你的資料,起碼要有多大的可能性,被落在你期望的區間內。

如,一拿到資料,我們最先就要想,這份資料起碼應該有絕大部分的值,不是隨機的(也就說,是應該有規律的),這個絕大部分到底應該被量化為多少呢?一般來說,我們會選擇

90%,或者

95%或者

99%。那麼

99%是最極端的情況,表示你能夠完全的確認,這份資料沒有任何的隨機可能(只有

1%的可能是隨機建立的),完全的接受了零假設。

下表顯示了不同置信度下未經校正的臨界

p 值和臨界 z 得分。

z 得分(標準差)

p 值(概率)

置信度< -1.65 或 > +1.65

< 0.10

90%< -1.96 或 > +1.96

< 0.05

95%< -2.58 或 > +2.58

< 0.01

99%

「未經校正」就所謂的「經驗引數」,當然還有乙個「錯誤發現率(fdr)」工具,可以對p 值的臨界點進行校正。這些校正後臨界值會等於或小於上面的表所示的值。

對於這個

fdr工具,先挖個坑,以後填。

最後,我們最後來解讀乙份資料

這個是通過

arcmap

的全域性莫蘭指數計算出來的結果,我們暫時跳過期望指數和方差,直接看我們這幾天講的內容。

莫蘭指數是大於0.7

,z得分是大於

1.96,p

值為大於

0.04

小於0.05

,對照上面那個對比標尺,所以就能得出以下的結果: 1

、莫蘭指數是正數,而且大於

0.7,就表示這份資料具有空間正相關性,資料集的用於分析的值與空間聚集度成正比。 2

、p值小於0.0

5,所以本資料是隨機生成的概率只有5%(

95%的置信度)。 3

、z得分大於

1.96

,說明這份資料的呈現了明顯的聚類特徵。

那麼總體說,

p值代表資料**的可靠性,

z得分和莫蘭指數都表示此資料有明顯的規律。

最後來看看,這是乙份什麼資料:

這是北京市

2023年9

月的房價資料(友情感謝小強同學提供)。這份資料是通過爬蟲從網路上扒下來的,自然不會是隨機生成,而且房價的資料確實是明顯有聚集特性和空間正相關的。

這樣,通過計算,驗證了我們的猜測和觀點。 關於

p值和z得分的內容,後面還有,未完待續。

白話空間統計之四 P值和Z值(上) 零如果

本來今天想要講講軟體操作的,後來發現好像還有好幾個重要的指標沒有說,乾脆等所有說完在講操作吧。否則操作出來的結果會發現大量的 不明覺厲 首先是空間統計裡面非常神奇的兩個值 p值和 z值。要說這兩個值之前。還是要複習一下統計學的概念。畢竟空間統計的理論基礎還是建立在經典統計學上面的。首先,統計學裡面。...

白話空間統計之 空間異質性

橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。蘇軾 題西林壁 讀完這首詩,我首先檢討一下自己,我一直誤記這首詩是李白寫的,因為總記得李白寫過有關廬山的,但是仔細一想,李白寫的 飛流直下三千尺,疑是銀河落九天 和我一樣記錯的同學,請一同檢討。看完這首詩,我覺得大家在看看題目,就應該知...

白話空間統計之 Moran s I(莫蘭指數)

前兩天聊了空間統計學裡面的兩個經典概念,今天來說說第一篇文章留下的大坑 moran s i 首先,moran s i 這個東西,官方叫做 莫蘭指數,是澳大利亞統計學家派屈克 阿爾弗雷德 皮爾斯 莫蘭 patrick alfred piercemoran 好長的名字,不過一般都簡稱為 帕克 莫蘭,就是...