資料質量分析是資料探勘中資料準備過程的重要–環,是資料預處理的前提,也是資料探勘分析結論有效性和準確性的基礎,沒有可信的資料,資料探勘構建的模型將是空中樓閣。
資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般是指不符合要求,以及不能直接進行相應分析的資料。在常見的資料探勘工作中,髒資料報括如下內容。
口、缺失值。
異常值。
不一致的值。
重複資料及含有特殊符號(如#、¥、*)的資料。
資料的缺失主要包括記錄的缺失和記錄中某個字段資訊的缺失,兩者都會造成分析結果的不準確,以下從缺失值產生的原因及影響等方面展開分析。
(1)缺失值產生的原因
1)有些資訊暫時無法獲取,或者獲取資訊的代價太大。
2)有些資訊是被遺漏的。可能是因為輸人時認為不重要、忘記填寫或對資料理解錯誤等一些人為因素而遺漏,也可能是由於資料採集裝置的故障、儲存介質的故障、傳輸**的故障等非人為原因而丟失。
3)屬性值不存在。在某些情況下,缺失值並不意味著資料有錯誤。對一-些物件來說某些屬性值是不存在的,如乙個未婚者的配偶姓名、乙個兒童的固定收入等。
(2)缺失值的影響
1 )資料探勘建模將丟失大量的有用資訊。
2)資料探勘模型所表現出的不確定性更加顯著,模型中蘊涵的規律更難把握。
3)包含空值的資料會使建模過程陷人混亂,導致不可靠的輸出。
(3)缺失值的分析
使用簡單的統計分析,可以得到含有缺失值的屬性的個數,以及每個屬性的未缺失數、缺失數與缺失率等。
從總體上來說,缺失值的處理分為刪除存在缺失值的記錄、對可能值進行插補和不處理3種情況。
異常值分析是檢驗資料是否有錄人錯誤以及含有不合常理的資料。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進資料的計算分析過程中,對結果會產生不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。
異常值是指樣本中的個別值,其數值明顯偏離其餘的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點分析。
(1)簡單統計量分析
可以先對變數做乙個 描述性統計,進而檢視哪些資料是不合理的。最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理的範圍。如客戶年齡的最大值為199歲,則該變數的取值存在異常。
(2) 3σ原則
如果資料服從正態分佈,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。在正態分佈的假設下,距離平均值3σ之外的值出現的概率為p(x-u1>3σ)≤0.003,屬於極個別的小概率事件。
Spyder基於Python的資料分析
基於python的資料分析 1.為什麼要進行資料分析 簡答 人工智慧,大資料等資料的採集需要資料 資料通過python分析而來 進行資料的清洗操作 建立資料模型model 生成乙個目標資料 未來 得到結果 2.企業資料存在的形式 1 存在 檔案 例如 excel word csv txt 2 資料庫...
python資料分析
以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...
python資料分析
陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...