2.1 位置的度量
平均數、中位數、眾數、百分位數、四分位數
mean,median,mode,iqr(inter-quartile range)
2.2 變異程度的度量
極差、四分位數間距、方差、標準差、標準差係數
2.3 分布形態、相對位置、異常值檢測
偏度、z-分數、切比雪夫定理、經驗法則
切比雪夫定理描述與平均數相差某個特定個數的標準差的資料所佔的比例。
異常值檢測,與平均數相差+3或者-3個標準差以上的值就算異常值。經驗法則依賴於正態分佈。
2.5 探索性資料分析
五數概括法、箱線圖
2.6 兩變數間關係的度量
協方差,受變數單位的影響,因此有相關係數。
相關係數為1時,表示變數間存在斜率為正數的直線。越接近1越正相關,接近0表示不存在相關關係。
相關係數是對變數間相關而非因果關係的度量。
2.7 加權平均數、分組資料
加權資料表示了每個觀測值的權重。
分組資料在計算相關的描述統計量時採用平均數即組中值代表分組資料的觀測值。
Pandas 描述統計函式
在進行統計描述時,pandas對三個資料物件的軸引數規定如下 series 沒有軸引數 dataframe index axis 0,default columns axis 1 panel items axis 0 major axis 1,default minor axis 2 統計描述引數如...
002 描述統計學基礎
這一節課很簡單,就是我們在中學中學習的均值,中位數,眾數,這些概念主要是在上一節課中學到的數值資料這一分類中進行的。下面把這些概念讓我們再回顧一遍吧 分析數值資料 數值資料的四個方面 分析數值資料有四個主要方面 集中趨勢測量 集中趨勢測量的方式有三種 center 集中趨勢測量 均值 均值在數學中通...
pandas彙總和計算描述統計
pandas 物件擁有一組常用的數學和統計方法。他們大部分都屬於簡約和匯 計,用於從series中提取單個值 如sum或mean 或從dataframe的行或列中提取乙個series。跟對應的numpy陣列方法對比,他們都是基於沒有缺失資料的假設而構建的。看例子 呼叫dataframe的sum方法將...