空間統計(四)回歸分析探索

2021-06-29 04:40:40 字數 2706 閱讀 9213

而「空間關係建模」工具箱中的工具,更傾向於研究 why? 例如,為什麼會出現這種情況? 或者說什麼導致了這種情況。這時我們就可以使用工具進行回歸分析,如:普通最小二成法(ols) 和 地理加權回歸(gwr)。

你可能會問,為什麼要進行回歸分析?幫助文件中回歸分析基礎這一章寫的最好,比較貼近讀者,而不是冰冷的字典,我把回歸分析的應用示例搬過來幫助理解,以下內容整理自幫助文件。

對某一現象建模,以更好地了解該現象並有可能基於對該現象的了解來影響政策的制定以及決定採取何種相應措施。基本目標是測量乙個或多個變數的變化對另一變數變化的影響程度。示例:了解某些特定瀕危鳥類的主要棲息地特徵(例如:降水、食物源、植被、天敵),以協助通過立法來保護該物種。(更好地了解

對某種現象建模以**其他地點或其他時間的數值。基本目標是構建乙個持續、準確的**模型。示例:如果已知人口增長情況和典型的天氣狀況,那麼明年的用電量將會是多少?(建模**

您還可以使用回歸分析來深入探索某些假設情況。假設您正在對住宅區的犯罪活動進行建模,以更好地了解犯罪活動並希望實施可能阻止犯罪活動的策略。開始分析時,您很可能有很多問題或想要檢驗的假設情況:(探索檢驗假設

總之,通過回歸分析,我們可以對空間關係進行建模、檢查和**;回歸分析還可幫助我們解釋所觀測到的空間模式背後的諸多因素。

在所有的回歸方法中,ols 最為著名。而且,它也是所有空間回歸分析的正確起點。它可以嘗試了解或**(早逝/降雨)的變數或過程提供乙個全域性模型;而且,它可建立乙個回歸方程來表示該過程。地理加權回歸 (gwr) 是若干空間回歸方法中的一種,被越來越多地用於地理及其他學科。通過對資料集中的各要素擬合回歸方程,gwr 為您要嘗試了解/**的變數或過程提供了乙個區域性模型。若使用得當,這些方法可提供強大且可靠的統計資料,以對線性關係進行檢查和估計。

例如如下是兩個變數之間存在正、負關係以及無關係的情況:

通過上文,我們有了對回歸分析的基本的印象,下面我們就來深入進去,看看回歸分析是如何實現的

回歸分析是乙個複雜的過程。在這個過程中,我們利用乙個或多個解釋變數對因變數進行最佳**。說到底就是乙個包含因變數、解釋變數、係數、殘差的數學公式,像下面的樣子。

什麼是因變數?

等式的左邊是因變數(dependent variable),記為y,表示我們要研究或者**的物件。通常我們會先給定一些已知的 y 值,用於構建回歸方程,這些已知的 y 值稱為觀測值

什麼是解釋變數?

等式的右邊的 x ,稱為自變數解釋變數(explanatory variables)。因變數是解釋變數的函式。到這裡,可能有的同學就暈了。

同樣,舉個栗子。我們想研究人們肥胖的諸多原因,想找到肥胖與收入、健康食品攝入、教育水平等等因素是否有關聯。在這個例子中,肥胖就是因變數(y),收入、健康食品攝入、教育水平等這些因素即為解釋變數(x)。

還有重要的回歸係數呢!

在方程中,我們還發現有些 β 值,稱為回歸係數(coefficient)。表示解釋變數與因變數之間的關係強度和型別,每個解釋變數都有乙個對應的回歸係數。當關係為正時,關聯係數的符號也為正。當關係為負時,關聯係數的符號也為負。如果關係很強,則係數也相對較大。如果關係較弱,則關聯係數接近於零。

其中截距。它表示所有自變數(解釋變數)均為零時因變數的預期值。

絕對不能忘記的殘差!

ε稱為殘差(residual)隨機誤差項,是因變數不能解釋的部分。回歸工具可以構造出能夠對那些已知的 y 值作出最佳**的方程。不過,**值很少會和觀測值完全匹配。y 的觀測值與**值之差稱為殘差。回歸方程中的殘差可用於確定模型的擬合程度。殘差較大表明模型擬合效果較差。

回歸模型的構建是乙個迭代過程,在該過程中,需要找出有效的自變數來了解因變數,且需要執行回歸工具來確定哪些變數為有效的**因子,然後需要反覆執行變數移除和/或新增操作,直到找出最佳的回歸模型。

雖然構建模型的過程通常是探索性的,但它絕不是「盲目的搜查」。我們應通過了解相關理論、請教該領域內的專家並憑藉一些常識性資訊來確定可能的解釋變數。在分析之前,我們應該清楚每個可能的解釋變數和因變數之間的關係並能夠對其正確與否作出判斷,而且,對於這些關係不匹配的模型,我們應該表示質疑。

資料分析四 回歸分析

回歸分析 統計學用來研究不確定性的基本手段 如何研究不確定性 分析業務 找出因變數y 找出x x y 表示不確定性 統計學 不準確 統計學就是研究不確定性 回歸分析是統計學中研究資料的基本手段。資料分析的第一步是回歸分析 回歸分析的第一步是分析業務,第二步是確定因變數y。回歸分析 把抽象的業務問題具...

機器學習(2) 回歸演算法 回歸分析

在統計學中,回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析 按照因變數的多少,可分為 簡單回歸 分析和多重回歸分析 按照 自變數和 因變數之間的關係型別,可分為 線性回歸 ...

Spark Mllib資料探勘入門四 回歸分析

回歸分析 regression analysis 是一種用來確定兩種或兩種以上變數間相互依賴的定量關係的統計分析方法,運用十分廣泛。如果在回歸分析中,只包括乙個自變數和乙個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且因變數和...