昨天講了對資料預處理的乙個最簡單的方法,利用資料分級進行異常值查詢,這只是資料探索的第一步,而實際地統計分析前期資料的探索光去除異常值遠遠不夠,還需要對資料的分布進行檢查,探索全域性異常值和區域性異常值,了解全域性趨勢和區域性變化,進而檢查空間自相關(這一步對於克里金插值方法的選擇至關重要)。今天我們的專題就是對定量資料分布探索。
tips:不是所有的插值方法都要求資料服從正態分佈,但以下方法要求資料必須服從正態分佈,普通克里金、簡單克里金和泛克里金法建立分位數圖和概率圖,如果資料本身不是正態分佈,想要使用上述方法,必須通過某種變換使資料服從正態分佈。直方圖和正態qq圖可幫助檢查資料是否服從正態變換。
步驟:地統計分析工具條→探索資料→直方圖或正態圖
由上圖可以看出直方圖由兩部分內容組成,頻率分布和匯**計資料。頻率分布為條形圖顯示的內容,用來顯示觀察值位於特定區間或組之內的頻率。匯**計資料的內容:平均值:資料的算數平均值;標準差:用來表徵離散度,值越小,說明資料聚類相對於均值越緊密;偏度:用來表徵分布對稱度的測量值。對於對稱的分布,偏度係數為零。如果分布具有較長的大值右尾部,則為正偏分布;如果分布具有較長的小值左尾部,則為負偏分布。對於正偏分布,平均值大於中間值;對負偏分布,平均值小於中間值。下圖顯示了乙個正偏分布;峰度:用於表徵分布尾部的大小,正態分佈的峰度等於三。具有較厚尾部的分布被稱為高峰態,其峰度大於三。具有較薄尾部的分布被稱為低峰態,其峰度值小於三;1/4分位數:公升序排列,位於中位數之下,第一分位數之上;中位數:與累積比例0.5對應;3/4分位數:公升序排列,位於中位數之上。
如果資料不服從正態分佈,可通過變換方式對資料進行變換。
qq圖檢查資料分布
正態 qq 圖上的點可用來指示單變數資料分布的正態性,如果是正態分佈,點將落在 45 度參考線上,如果資料不是正態分佈,點將會偏離參考線。
機器學習之資料探索 資料特徵分析(分布分析)
資料特徵分析與資料質量分析一道構成資料探索的兩方面工作,在前文中介紹過關於資料質量分析的概況,本文將對資料特徵分析作簡介,並著重於分布分析的角度,相比於資料質量分析,資料特徵分析更注重於找尋資料間的關係。資料特徵分析包括以下幾個分析角度 1 分布分析 2 對比分析 3 統計量分析 4 帕累託分析 5...
boost 統計分布之正態分佈
專案要計算乙個聯配 alignment 的顯著性,用p value來衡量。隨機聯配做背景分布,而隨機聯配是正態的。學習了一下boost的數學分布。太好用了,媽媽再也不用擔心我寫錯公式了。下面是測試 include include using namespace std int main int ar...
資料探勘之資料探索
本文探索 1.探索類別特徵,檢視每個類別特徵有多少種類 2.探索數值特徵,離散化方式 3.去除大多數是同一值的特徵 4.處理時間型特徵 所需python包 from pandas import series,dataframe import pandas as pd一 檢視每個類別特徵有多少種類 d...