資料轉化資料轉化資料離散化
資料擴充
資料合併與拆分
這部分的目的較多,如分類變數賦值後可以使用更多的分析方法;連續變數轉化為分類變數是因為各人群之間的差異並不大,可以進行分組;標準化的目的是為了消除各變數之間的資料量綱;資料一般化的目的是將同連續變數轉化為分類變數的目的,不需要針對細分的分類進行分析。
2.資料標準化
1)極值標準化
2)z值標準化
3.資料一般化
將原始資料的概念階層向上抽象提公升,如會員的家庭位址用城市或是北中南東四區取代
資料離散化
目的:1)降低資料複雜程度,讓模型擬合更精確、更具解釋力;
2)為了支援無法處理連續數值型字段的演算法模型,如貝氏網路、關鍵規則、卡方檢驗;
3)可以到與目標變數(因變數)的變化趨勢,更符合實際情況,便於實際中應用。
方法:人工分離法:
1)根據專家個人意見來分離;
2)根據嘗試來分離,如年齡分為20歲及以下、21-30、31-40、41-50、51-60、61歲及以上。
裝箱法(binning method):
1)等寬(equal-width-interval)裝箱法;
2)等分(equal-frequency-interval)裝箱法。
資料擴充
資料擴充目的
現有資料不能滿足分析要求,需要增加外部資料,或者通過已有的資料生成新的變數。
資料擴充內容
1.外部資料的擴充
如分別將一群樣本在不同時期測量得到的前側、後側成績合併
2.內部資料的擴充
利用已有的字段重新整合計算得到新的字段,如基於研究經驗知道性別與年齡對收入存在互動作用,因此需要重新生成性別與年齡的互動變數。
資料合併與拆分
滿足分析時對資料個性化制定的需求
兩部分擁有相同欄位的資料合併在一起
隨機拆分
按比例拆分:分層抽樣法
【使用spss進行資料合併、白能量重新編碼、異常值診斷、資料選取等預處理操作】
資料規範化
資料分析之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮...
資料規範化
資料歸一化是指把資料壓縮到 0,1 的區間內。sklearn.preprocessing.minmaxscalar 將資料壓縮到min到max組成的區間,並使其結果落在0到1的範圍內。x x mi nmax min sklearn.preprocessing.standardscalar 將資料轉換...
資料庫規範化
規範化 normalization 是資料庫系統設計中非常重要的乙個技術。資料庫規範化能夠讓資料庫設計者更好地了解組織內部當前的資料結構,最終得到一系列的資料實體。資料庫規範化通過對資料庫表的設計,可以有效降低資料庫冗餘程度。在進行資料庫規範化的時候,我們有一系列的步驟需要遵循。我們把這些步驟稱作正...