資料探索和資料準備的步驟

如我們所知，資料分析工作的70%的時間都用作於資料清洗，資料探索和資料準備當中，這可以說是資料分析的核心所在。資料清洗主要是工具層面上的，這裡先不討論。我們這裡討論資料探索和資料準備的六大步驟。

在對資料分析之前，我們需要去識別變數，去了解變數的型別和資料的型別。比如判別變數是分型別變數的還是連續型變數，是二分類還是有序變數。這些知識在任何一本統計學書上第一章都會詳細介紹。

識別完變數之後，我們算是初步的了解了資料的全貌，知道其大概表示什麼。接下來我們應該對每乙個變數進行分析，以期更深入的了解資料，並希望從中得到乙個假設，以便接下來的檢驗。對於單變數的分析，我們根據單變數的型別進行特定的分析。

連續型變數：

分型別變數：主要是要頻數表(頻率表)去了解其分布，圖形主要是用條形圖，也可以用遊程檢驗去檢驗其是否隨機，以判定抽樣是否隨機。

進行完單變數的分析後，我們對資料有了更深的理解，下面我們該進行雙變數的分析。我們進行雙變數的分析主要有兩個目的，第一，我們想知道我們的目標變數與已知變數之間有什麼關係；第二，我們想驗證在單變數分析中得出的假設。雙變數的分析可以分為三類：

連續型與連續型：對於兩個連續型資料的分析，我們主要是用散點圖和相關係數去判定。通過散點圖看出兩者是否有線性關係，在通過計算相關係數去判定關係的強弱。

分型別與分型別：而對於兩個分型別資料的分析，我們可以用交叉分組表，堆積條形圖和卡方檢驗去驗證兩者之間的關係。

分型別與連續型：分型別和連續型資料的分析，我們主要用到t檢驗和方差分析

在資料分析中，缺失值是乙個很讓人頭疼的問題，有時候缺失值過多，以至於根本無法進行資料分析。我們這裡討論一下如何處理資料中的缺失值。

缺失值產生的原因無外乎兩個：一、資料提取時出錯，也就是自己操作出錯，這個很好說，重新提取或檢查一遍即可；二、資料收集時出錯，這個很就不好解決。

缺失值處理：

對於異常值，我們可以說是對它喜憂參半，如果異常值是自然存在的，我們就可以對異常值進行一系列分析，比如用於欺詐檢測，入侵檢測等。但是大部分異常值的是人為產生的，其產生原因可能是錄入錯誤、測量誤差、實驗誤差、抽樣誤差等產生。這些異常值通常會混淆我們的視聽，影響我們對資料的理解，破壞資料之間的聯絡，因此我們該學會如何去處理異常值。

檢測異常值：

處理異常值：

在建模之前，特徵提取是極其重要的步驟，它的好壞直接影響你模型的好壞，所以我們必須去學習如何實現特徵提取。

特徵提取就是從已知的資料中提取更多的資訊，你不加入任何資料，但是你卻讓你的資料更加有用。

特徵提取的方法有：變數轉換和變數建立。

變數轉換：當我們需要改變資料的度量（標準化）或需要把非相關改為相關或改變變數分布時，我們需要用到變數轉換，比如進行對數，平方／立方根，分組等方式。

變數建立：我們都是基於現有的變數來建立新變數。比如說我們可以以上變數轉換的方法形成新的變數，也可以把分類變數進行數值化，以便於分析等。

總結一下：進行資料探索我們需要6個步驟

識別變數：分型別？數值型？

單變數分析：數值描述，圖表描述，檢驗分布

處理缺失值：刪除？代替？**？

處理異常值：如何檢測？如何移除？

特徵提取：一般有哪些提取方法？

以上就是資料探索和資料準備的一些步驟，這些步驟不去實踐永遠都不會用作用，所以我們應該去多做分析，多去探索，如果你的英語不錯，kaggle是乙個好的去處。

資料探索和資料準備的步驟

Buffer的準備和資料讀取

利用微查詢和資料銳化進行大資料探索

利用微查詢和資料銳化進行大資料探索

資料探索和資料準備的步驟

Buffer的準備和資料讀取

利用微查詢和資料銳化進行大資料探索

利用微查詢和資料銳化進行大資料探索

相關推薦