分類資料
眾數:出現最多的變數值,峰值
順序資料
中位數:位置在中間的變數值 。位置:
分位數:上四分位位置:
假設目前有9個資料,則下四分位=9/4=2.25,資料位於第二位和第三位資料的25%的位置。
假設目前有9個資料,則上四分位=3*9/4=6.75,資料位於第六位和第七位資料的75%位置。
數值型資料
平均數:
加權平均數:
幾何平均數:
分類資料
異眾比率:非眾陣列的頻數佔總頻數的比例。衡量眾數是否有代表度。比率大,眾數代表性差。
順序資料
四分位差:上四分位-下四分位。中間的資料集的集中程度,越大越離散。
數值型資料
極差:max-min
平均差:也叫平均離差。反應變數與平均值的差異程度,越大說明資料越離散。 (∑|x-x'|)/n
方差:變數值與平均數差值平方的平均數。
標準差:方差開方。
標準分數:也稱標準化或z分數。線性變化資料,平均數為0,方差為1.
經驗法則:68-95-99法則。
切比雪夫:75-89-94法則。
離散係數(變異係數)=標準差/平均值
考驗離散程度,越小資料越穩定。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學基礎(一)統計摘要
總體 population 包含所研究的全部個體 資料 的集合 樣本 sample 研究中實際觀測或調查的一部分個體 選擇性偏差 selection bias 在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,屬於系統誤差。eg.在一項身高研究中,選擇籃球運動員作為樣本。測量偏差 measu...
統計學 論統計學知識點
二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...