如我們所知,資料分析工作的70%的時間都用作於資料清洗,資料探索和資料準備當中,這可以說是資料分析的核心所在。資料清洗主要是工具層面上的,這裡先不討論。我們這裡討論資料探索和資料準備的六大步驟。
在對資料分析之前,我們需要去識別變數,去了解變數的型別和資料的型別。比如判別變數是分型別變數的還是連續型變數,是二分類還是有序變數。這些知識在任何一本統計學書上第一章都會詳細介紹。
識別完變數之後,我們算是初步的了解了資料的全貌,知道其大概表示什麼。接下來我們應該對每乙個變數進行分析,以期更深入的了解資料,並希望從中得到乙個假設,以便接下來的檢驗。對於單變數的分析,我們根據單變數的型別進行特定的分析。
連續型變數:
分型別變數:主要是要頻數表(頻率表)去了解其分布,圖形主要是用條形圖,也可以用遊程檢驗去檢驗其是否隨機,以判定抽樣是否隨機。
進行完單變數的分析後,我們對資料有了更深的理解,下面我們該進行雙變數的分析。我們進行雙變數的分析主要有兩個目的,第一,我們想知道我們的目標變數與已知變數之間有什麼關係;第二,我們想驗證在單變數分析中得出的假設。雙變數的分析可以分為三類:
連續型與連續型:對於兩個連續型資料的分析,我們主要是用散點圖和相關係數去判定。通過散點圖看出兩者是否有線性關係,在通過計算相關係數去判定關係的強弱。
分型別與分型別:而對於兩個分型別資料的分析,我們可以用交叉分組表,堆積條形圖和卡方檢驗去驗證兩者之間的關係。
分型別與連續型:分型別和連續型資料的分析,我們主要用到t檢驗和方差分析
在資料分析中,缺失值是乙個很讓人頭疼的問題,有時候缺失值過多,以至於根本無法進行資料分析。我們這裡討論一下如何處理資料中的缺失值。
缺失值產生的原因無外乎兩個:一、資料提取時出錯,也就是自己操作出錯,這個很好說,重新提取或檢查一遍即可;二、資料收集時出錯,這個很就不好解決。
缺失值處理:
對於異常值,我們可以說是對它喜憂參半,如果異常值是自然存在的,我們就可以對異常值進行一系列分析,比如用於欺詐檢測,入侵檢測等。但是大部分異常值的是人為產生的,其產生原因可能是錄入錯誤、測量誤差、實驗誤差、抽樣誤差等產生。這些異常值通常會混淆我們的視聽,影響我們對資料的理解,破壞資料之間的聯絡,因此我們該學會如何去處理異常值。
檢測異常值:
處理異常值:
在建模之前,特徵提取是極其重要的步驟,它的好壞直接影響你模型的好壞,所以我們必須去學習如何實現特徵提取。
特徵提取就是從已知的資料中提取更多的資訊,你不加入任何資料,但是你卻讓你的資料更加有用。
特徵提取的方法有:變數轉換和變數建立。
變數轉換:當我們需要改變資料的度量(標準化)或需要把非相關改為相關或改變變數分布時,我們需要用到變數轉換,比如進行對數,平方/立方根,分組等方式。
變數建立:我們都是基於現有的變數來建立新變數。比如說我們可以以上變數轉換的方法形成新的變數,也可以把分類變數進行數值化,以便於分析等。
總結一下:進行資料探索我們需要6個步驟
識別變數:分型別?數值型?
單變數分析:數值描述,圖表描述,檢驗分布
處理缺失值:刪除?代替?**?
處理異常值:如何檢測?如何移除?
特徵提取:一般有哪些提取方法?
以上就是資料探索和資料準備的一些步驟,這些步驟不去實踐永遠都不會用作用,所以我們應該去多做分析,多去探索,如果你的英語不錯,kaggle是乙個好的去處。
Buffer的準備和資料讀取
int ioctl int fd,int requestbuf,struct v4l2 requestbuffers argp 引數一 open 所產生的控制代碼。引數二 vidioc reqbufs 引數三 in out結構體。struct v4l2 requestbuffers u32 coun...
利用微查詢和資料銳化進行大資料探索
微查詢和資料銳化 微查詢和資料銳化是專利技術,它們協同工作以允許使用者與大資料進行互動。zoomdata查詢引擎根據所請求的聚合值型別和預期查詢執行時間等條件呼叫它們。微查詢和資料銳化非常適合按日期分割槽並在具有多個處理核心的群集上執行的大資料。此功能是可選的,可以在資料來源定義級別禁用。micro...
利用微查詢和資料銳化進行大資料探索
微查詢和資料銳化 微查詢和資料銳化是專利技術,它們協同工作以允許使用者與大資料進行互動。zoomdata查詢引擎根據所請求的聚合值型別和預期查詢執行時間等條件呼叫它們。微查詢和資料銳化非常適合按日期分割槽並在具有多個處理核心的群集上執行的大資料。此功能是可選的,可以在資料來源定義級別禁用。micro...