1.對於屬性值資料
可以用柱狀圖分析屬性類別的數目等資訊,以及行頻率,列頻率進行分析,以及餅狀圖,族形柱狀圖與結構柱狀圖(分組的柱形圖和堆疊的柱形圖)
2. 對於數值型資料,
1)首先通過直方圖觀察資料分布,是單峰,雙峰還是均勻分布,左偏還是右偏,還是對稱的,
2)然後分析中心趨勢(中位數和均值)和離散趨勢(四分位差,標準差,極差),通常,有偏分布,分析中位數和四分位差,對稱分布,分析均值和標準差,注意,對於單峰分布,其四分位數差通常比標準差要大,若不是這樣,需要重新檢查資料分布是不是無偏的,有沒有異常值存在。
3)細緻討論其他不常見的特徵
對於多峰分布,需要分析出出現的原因,找到原因後,最好再資料分組進行分析;
需要指出明顯的異常值。先對資料計算均值和標準差,然後對剔除異常值後的資料計算均值以及標準差,對他們的差別進行比較說明。異常值的存在對中位數和四分分位數差基本上沒什麼影響。
(均值與中位數相差不大,說明異常值影響不大;對多峰的資料,最好把他們區分開,然後分別進行描述)
3.利用直方圖進行分組比較
比如對資料分成春夏和秋冬,然後比較兩組的離散趨勢,中心趨勢,數值分布等
4.利用箱線圖進行分組比較
比如,對每個月進行箱線圖的展示,能夠便於比較各組之間的資料分布的比較
5.異常值分析比較
從箱線圖中,我們很容易發現資料中的異常值,此時應該與直方圖聯合起來觀察,當我們考慮某個數值是否異常的時候,通常的做法是觀察比較該數值與其他資料之間是否存在距離,若距離較大,說明該數值確實不同於其他資料,但有的時候也確實存在這種情況,需要具體情況具體分析。
當識別出異常值之後,需要我們做具體的核實與甄別,或者由於登記性錯誤,比如小數點位置,不正確的換算,計量單位標錯了等,此時需要認為改正;對於不是由於工作錯誤而出現的異常值,我們需要進一步了解分析,找相關背景等去證實,比如某天的風速特別大,通過查閱相關記錄,那天的風速天氣確實很不好。
對於分析出來的異常值(非人為因素的異常值),我們應該從兩種情形進行分析,一是對於存在異常值的資料;二是對不包括異常值剩下的資料進行描述分析,建模等。進行對比。
6.資料變換
a.降低資料的偏斜程度
是指,對於有偏的資料,直接用中心趨勢和離散趨勢測算方法對其描述有些不合適,此時需要使用資料變換,使得有偏資料不那麼偏斜,如使用平方根或者對數。
通常,對於右偏分布的變數,通過平方根,對數,倒數變換,通常能夠改變分布的右偏程度;
對於左偏分布的變數,如果實施平方處理,也許能夠將其轉成對稱分布。
7.散點圖
散點圖是考察兩個數量變數之間關係的最有效的辦法。而變數之間的關係是我們想從資料中了解的核心內容之一。
看到散點圖,首先關心的是方向,散點從左上方向右下散布,這是負相關,散點由左下方向右上方散布,這是正相關,除此之外,為不相關。
然後,關注散點圖反映出來的相關型別,若為直線關係,繪製的散點圖中的點將呈直線狀持續散布。
然後,關注散點圖顯示出來的相關程度。有兩種比較極端的情形:意識散點圖中的點比較緊密地呈單一流線狀,這是高度的相關關係二是散點像一團烏雲,看不出任何趨勢和規則,這是不相關關係,處於兩者中間的,叫做一般相關關係。
最後,觀察散點圖中是否存在異常點,出現一些離開的點,因此,需要我們思考這些點為什麼會離開,是否需要分組處理。
8.相關係數
注意使用相關係數時候,首先要觀測是不是數量變數,然後觀測是不是線性關係(只有線性關係才能計算他們的相關係數,對於非線性觀念西不適用),最後觀測有沒有異常值出現,異常值會歪曲相關係數的結果。
9.殘差圖
可以利用殘差圖對結果進行分析,可以使用殘差的散點圖和直方圖,可以觀測到哪些資料**比實際高,哪些**比實際低,並分析原因,然後可以進行分組建立回歸模型
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學 論統計學知識點
二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...
統計學陷阱
1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...