Python資料探勘學習6卡方檢驗

2021-09-17 21:56:09 字數 658 閱讀 8346

1.定義:一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。

2.基本思想:統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

例:檢驗化妝與性別有沒有關係

調查結果:

假設:化妝與性別無關,化妝和不化妝中男女分布一樣的。

假設檢驗量:

計算後:

卡方值與p值的對比表:

129.3明顯大於3.841——>拒絕原假設,說明化妝與性別有關。

卡方檢驗又叫四方格檢驗法,常用與檢驗兩個因素直接是否具有聯絡。

機器學習 卡方檢驗

本文相對原文有刪減和增加一些自己的理解。其實卡方檢驗是英文chi square test 的諧音。在大資料運營場景中,通常用在某個變數 或特徵 值是不是和應變數有顯著關係。卡方檢驗就是檢驗兩個變數之間有沒有關係。如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。這邊顯著區別可以理解為兩個...

Python資料探勘學習路程 起步

一 首先第一步我去了解了python開發環境 python 程式執行基礎的直譯器 第三方類庫 功能擴充套件 編輯器 提高 編輯效率 編輯器有 pycharm spyder jupyter notebook等 anaconda 包含了python 第三方類庫 編輯器 後來直接用的這裡面的spyder ...

6 python學習之執行python的方式

python的直譯器 使用python 2.x直譯器 python py 使用python 3.x直譯器 python3 py 其他直譯器 知道 python的直譯器如今有多個語言的實現,包括 1 互動式執行python的優缺點 優點缺點 2 退出官方的直譯器 1 直接輸入exit exit 2 使...