目錄
第三章 資料探索
一、資料探索
二、資料質量分析
1. 主要任務:
2. 缺失值分析
3. 異常值分析
4. 一致性分析
三、資料特徵分析
1. 分布分析
2. 對比分析
3. 統計量分析
4. 週期性分析
5. 貢獻度分析
6. 相關性分析
資料預處理的前提
檢查原始資料中是否存在髒資料
髒資料:不符合要求,以及不能直接進行相應分析的資料
包括:缺失值、異常值、不一致的值(一致性、重複資料及含有特殊符號(如#、¥、*)的資料
包含:記錄的缺失、欄位的缺失
原因:無法獲取、成本高、遺漏
影響:有用資訊丟失、不確定性↑、建模混亂
分析:含缺失值的屬性的個數、每個屬性的未缺失數、缺失數、缺失率
處理:刪除、插補、不處理
錄入錯誤、不合常理的資料、數值明顯偏離其餘的觀測值
異常值也稱離群點、異常值分析也稱為離群點分析
最大值、最小值 看是否超過
如果是正態分佈,看是否距離平均值3δ之外
如果不是正態分佈,可以看遠離平均值多少倍來衡量
資料的矛盾性、不相容性
揭示資料的分布特徵和分布型別。
對定量資料:分布形式對稱or不對稱、特大或特小的可疑值——頻率分布表、頻率分布直方圖、莖葉圖
對定性資料:餅圖和條形圖
分布分析、對比分析、帕累託分析、週期性分析、相關性分析
a. 定量資料的分布分析
1)組數 & 組寬
2)確定組數和組寬的步驟
①求極差
②確定組距與組數
③決定分點
④列出頻率分布表
⑤繪製頻率分布直方圖
3)主要原則
4)頻率分布表
5)頻率分布直方圖
b) 定性資料的分布分析
常根據變數的分類型別來分組,可試用餅圖和條形圖來描述分布
主要以下兩種方式:
1) 絕對數比較
利用絕對數進行比較,從而尋找差異
2) 相對數比較
研究目的和對比基礎不同,分為:
3) 結構相對數
同一總體內的部分數值與全部數值對比,求得比重,說明事物的性質、結構和質量
如:產品合格率
4) 比例相對數
將同一總體的不同部分的數值進行對比,說明總體內各部分的比例關係
如:人口性別比例
5) 比較相對數
將同一時期兩個性質相同的指標進行對比,說明同類現象在不同空間條件下的數量對比關係
如:不同地區的商品**對比
6) 強度相對數
兩個性質不同但有一定聯絡的總量指標進行對比,說明現象的強度、密度和普遍程度
如:人均國內生產總值 元/人
計畫完成程度相對數
某一時期實際完成數與計畫數的對比,說明計畫完成程度
7) 動態相對數
同一現象在不同時期的指標數值進行對比,說明發展方向和變化的速度
如:發展速度、增長速度
對定量資料進行統計描述,兩個方面:集中趨勢和離中趨勢
平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數;
反應變異程度的指標是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位間距
1) 集中趨勢度量
a. 均值
i. 所有資料的平均值
ii. 加權平均
iii. 問題:對極端值很敏感
iv. 截斷均值——去掉高、低極端值之後的平均數
b. 中位數
將一組觀察值按從小到大的順序排列,位於中間的那個數。在全部資料中,小於和大於中位數的資料個數相等
c. 眾數
資料集**現最頻繁的數,且不具有唯一性。一般用於離散變數,不用於連續變數
2) 離中趨勢度量
a. 極差
極差 = 最大值 - 最小值
對資料的極端值十分敏感
b. 標準差
度量資料偏離均值的程度
c. 變異係數
度量標準差相對於均值的離中趨勢
主要用來比較:兩個或者多個具有不同單位或不同波動幅度的資料集的離中趨勢
d. 四分位數間距
i. 四分位數為 上四分位數 - 下四分位數
ii. 四分位:將所有數值有小到大排列並分為四等份,處於第乙個分割點位置的數值是下四分位數、第二個分割點是中位數。第三個分割點是上四分位數
iii. 四分位數間距越大,資料的變異程度越大;反之,資料的變異程度越小
探索某個變數是否隨著時間變化而呈現出某種週期變化趨勢
時間尺度:年、季度、月、日、小時等
又稱帕累託分析,原則是帕累託法則,又稱20/80定律:相同的投入放在不同的地方會產生不同的效益(公司收益的80%利潤常來自於20%最暢銷的產品,而其他80%的產品只產生了20%的利潤)
可用於重點改善收益最高的80%的服務
分析連續變數之間線性相關程度的強弱,並用適當的統計指標表示出來
1) 直接繪製散點圖(兩個屬性之間
完全正/負線性相關
正/負線性相關
非線性相關(其他相關 如x^2)
不相關2).繪製散點圖矩陣(多個屬性
同時考察多個變數間的相關關係時,利用散點圖矩陣同時繪製各變數間的散點圖
多元線性回歸時尤為重要
3)計算相關係數
更準確地描述變數之間的線性相關程度
二元變數的相關分析
a. pearson相關係數
① 用於分析兩個連續變數之間的關係
② 要求連續變數的取值服從正態分佈
b. spearman秩相關係數
不服從正態分佈的變數、分類或等級變數之間的關聯性
spearman秩相關係數,也稱等級相關係數
在實際應用計算中,上面兩種相關係數都要對其進行假設檢驗,使用t檢驗方法檢驗其顯著性水平以確定其相關程度。
在正態分佈假定下,spearman秩相關係數與pearson相關係數在效率上是等價的,而對於聯絡測量資料,更適合用person相關係數來進行分析
c. 判定係數
判定係數是相關係數的平方,用r²表示,用來衡量回歸方程對y的解釋程度。
0≤r²≤1,接近1,表示相關性強,接近0,表示幾乎沒有直線相關關係
Python資料分析與挖掘實戰 挖掘建模
常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...
python資料分析與挖掘實戰 資料探勘基礎
從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...
Python資料分析與挖掘實戰學習07
一 python基礎 1.python簡介 python是一種物件導向的解釋型語言,由荷蘭人guido van rossum與1989年發明,第乙個公開發行版本於1991年發布。python語法簡潔清晰,強制用空白符作為語句縮排。python語言最大的特點是簡單和強大。2.python庫 1 bas...