資料分析與資料探勘 四 多因子與復合分析(上)

2021-09-22 21:10:39 字數 1954 閱讀 3254

這一章內容:屬性與屬性之間常見的聯絡。

理論鋪墊:

假設檢驗與方差檢驗;

回歸:線性回歸;

pca與奇異值分解;

概念:做出乙個假設,根據資料已知的分布性質,來推斷該假設成立的概率有多大。

過程:

step1

:建立原假設h0,h0的反命題為h1,也叫備擇假設。一般情況下,原假設的分布是符合該分布的,而備擇假設是不符合該分布的。

step2:選擇檢驗統計量:根據資料的均值方差等性質構造的乙個轉換函式,構造的目的是便於判斷資料是否符合某種分布。例如用某些資料減去均值,再除以標準差,這樣判斷轉換後的統計量是否符合標準正態分佈,既可以判斷資料的分布是否是標準正太分布的概率了。

step3:根據顯著性水平(一般為0.05),確定拒絕域。

接受假設的失真程度的最大限度,顯示度水平和相似度的加和為1。例如,確定了某資料的分布有95%的可能性屬於某 乙個分布,那麼它的顯著性水平就是5%。

顯著性水平一般是人為定的乙個值,這個值定的越低,那麼說明資料分布符合某種分布的契合程度要求就越高,一般取 0.05,也就是說,要求資料有95%的可能與某分布一致。

一旦確定了顯著性水平,就可以畫出與這個分布相似度比較高的區域,這叫接受域。接受域以外的區域,就是拒絕域,如果檢驗統計量落入了拒絕域,那麼h0就可以認為是假的,也就是可以被拒絕的假設。

step4:計算p值或者樣本統計值,作出判斷。

判斷的思路有兩種,一是計算資料的分布區間,看這個區間是不是包含了我們要比較的特徵。二是計算p值,直接和顯著性水平進行比較。p值指的是結果更差的概率,如果p值落入了拒絕域,那麼說明這個假設是不成立的。

例子:

公式:

例如:

卡方值和p值對應表:

從表中可以看出,p值取0.05的話,卡方值應該不大於3.841,而上面的卡方值是129.3,明顯大於3.841,所以可以拒絕原假設,即化妝與性別沒有很大關係可以被拒絕掉。

卡方檢驗常用來檢驗兩個因素之間有沒有比較強的聯絡。

例如:

p值小於0.05,拒絕原假設,說明三種電池的均值是有差異的。

正相關,負相關,不相關

spearman相關係數和具體的數值關係不大,和數值的排序有關係,所以用於相對比較的情況下比較適合。

資料分析與資料探勘

一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...

資料分析與資料探勘

資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...

資料分析與挖掘

學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...