資料分析與挖掘(二)資料探索

2021-10-03 04:43:23 字數 1634 閱讀 5677

資料質量分析的首要任務就是檢查原始資料中是否存在髒資料,一般是指不合規的資料。其中包括(缺失值,異常值,不一致的值)

(1)缺失值產生的原因:有些資訊無法獲取,或者資訊的代價太大。

(2)缺失值的影響:資料探勘建模將丟失大量有用的資訊,不確定性會顯著增強,包含空值的資料會使建模過程更加混亂,導致不可靠的輸出。

異常值分析是檢驗資料是否有錄入錯誤以及含有不合理的資料。需要在資料建模之前將其剔除。異常值是指在樣本中的個別值,其數值明顯偏離其餘的正常值。也稱離群點,異常值分析也稱離群點分析。

(1)簡單統計量分析:先對變數做乙個描述性統計,進而檢視哪些資料不科學。

(2)分布分析能解釋資料的分布特徵和分布型別

1.定量資料的分布分析

對於定量變數而言,選擇「組數」和「組寬」是做頻率分布分析是最主要的瓦內特,一般按照以下步驟進行:

1)求極差

2)決定組距與組數

3)決定分點

4)列出頻率分布表

5)繪製頻率分布直方圖

遵循的主要規則如下:

1)各組之間必須是互相排斥的

2)各組必須將所有的資料報含在內

3)各組的組寬最好相等

對比分析是指把兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件的關係。特別適用於指標間的橫縱向比較,時間序列發比較分析。

主要有以下兩種形式:

(1)絕對數比較

絕對數比較是利用絕對數進行對比,從而尋找差異的一種方法。

(2)相對數比較

是指兩個有聯絡的指標對比計算的,用以反映客觀現象之間的聯絡。有以下幾種:

1)結構相對數:(部分/總體)將同乙個總體內的部分數值與全體進行比較,用以說明事物的性質,結構和質量。如食物支出佔消費支出總額的比例。

2)比例相對數:(部分中的各個細微部分/部分)將同一總體內不同的部分的數值進行對比,表明總體內各部分的比例關係。如人口性別比例。

3)比較相對數:(同一指標對比不同物件)將同一時期兩個性質相同的指標係數進行對比,說明同類現象在不同空間條件下的數量對比關係。如不同地區商品**對比,不同行業,不同企業某項指標對比。

4)強度相對數:將兩個性質不同但有一定聯絡的總量指標進行對比,用以說明現象的強度,密度和普遍程度。

用統計指針對定量資料進行描述統計,常從集中趨勢和離中趨勢兩個方面進行分析。

平均水平的指標是對個體集中趨勢的度量,一般用均值和中位數。

分析連續變數之間線性相關程度的強弱,並用適當的統計指標表示出來的過程稱為相關分析。

1.計算相關係數

為了更加準確的描述變數之間的線性相關程度,可以通過計算相關係數來進行相關分析。一般用pearson相關係數。

(1)pearson相關係數

一般用於兩個連續變數之間的關係,如下:

相關係數

r>0 為正相關, r<0 為負相關

|r|=1 表示完全線性相關

00.3

0.5|r|> 0.8 為高度線性相關

資料分析與資料探勘

一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...

資料分析與資料探勘

資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...

資料分析與挖掘

學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...