最近學校開了資料建模課程,根據學習內容做個小結。
2、探索性資料分析eda
()目的:熟悉資料集,了解資料集,對資料集進行驗證來確定所獲得資料集可以用於接下來的機器學習或者深度學習使用。
了解變數間的相互關係以及變數與**值之間的存在關係。
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的**問題更加可靠。
2.1檢視資料的型別(分型別資料or數值型資料)
2.2資料的各項統計指標的描述,如均值、中位數、眾數、上、下四分位數、標準差、最大、小值等
2.3缺失值處理(刪除or插補or不予理睬)
不處理(針對類似 xgboost 等樹模型);
刪除(缺失資料太多);
插值補全,包括均值/中位數/眾數/建模**/多重插補/ 壓縮感知補全/矩陣補全等;
(分箱,缺失值乙個箱)
2.4異常值處理
2.4.1通過箱線圖(或 3-sigma)分析刪除異常值;
2.4.2長尾截斷;
2.4.3非正態分佈轉化為正態分佈
線性變化z-scores
使用boxcox變換
使用yeo-johnson變換
2.5雜訊資料處理
2.5.1特徵歸一化/標準化:
標準化**換為標準正態分佈);
歸一化(抓換到 [0,1] 區間);
2.5.2資料分桶:
等頻分桶;
等距分桶;
best-ks 分桶(類似利用基尼指數進行二分 類);
卡方分桶;
3、特徵工程
3.1特徵工程的目標
對於特徵進行進一步分析,並對於資料進行處理
完成對於特徵工程的分析,並對於資料進行一些圖表或者文字總結並打卡
3.2常見的特徵工程包括:
3.2.1特徵構造:
構造統計量特徵,報告計數、求和、比例、標準差等;
時間特徵,包括相對時間和絕對時間,節假日,雙休日等;
地理資訊,包括分箱,分布編碼等方法;
非線性變換,包括 log/ 平方/ 根號等;
特徵組合,特徵交叉;
仁者見仁,智者見智。
3.2.3降維
pca/ lda/ ica;
注:特徵選擇也是一種降維。
資料探勘(資料處理基礎)
資料及資料型別 資料是資料庫儲存的基本物件,狹義的資料理解為數值,廣義的資料理解為記錄。資料的屬性 標稱 nominal 序數 ordinal 區間 interval 和比率。標稱的屬性 只提供足夠的資訊以區分物件,例如甲乙丙 序數屬性 提供足夠的資訊,區別物件的序,例如及格,不及格 區間屬性 其屬...
資料探勘 資料處理概念
一 什麼是資料預處理?一般我們得到的資料會存在有缺失值 重複值等,在使用之前需要進行資料預處理。它是一系列對資料操作的統稱。資料預處理沒有標準的流程,通常針對不同的任務和資料集屬性的不同而不同。資料預處理的常用流程為 資料清洗 可以用來清楚資料中的雜訊,糾正不一致。資料整合 將資料由多個資料來源合併...
資料處理 流資料處理利器
流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...