現實中的資料
現實中的資料庫資料很龐大,而且資料**於「不同複雜各異」的資料來源。資料庫受雜訊、缺失值、不一致資料的影響,使得資料低質量,導致低挖掘結果。
為提高資料質量,和挖掘結果的質量,對資料預處理是必要的。1.資料預處理的技術2.資料質量:為什麼要對資料預處理?2.1資料質量依賴於資料的應用。也即對於同一資料庫,不同需求的分析人員對其資料評價不同。(資料質量沒有絕對的好壞,只要能滿足分析人員的應用要求,那麼它就是高質量的。)
影響資料質量的因素:準確性、完整性、一致性、時效性、可信性、可解釋性。假設你是銷售經理,公司要求你分析部門的銷售資料,想知道每種銷售商品是否做了降價銷售廣告,你需要分析某些屬性或維。但是你希望用資料探勘技術分析的資料是:
不完整的(缺少屬性值或某些感興趣的屬性);
不正確的或含雜訊的(包含錯誤的或偏離期望的值);
不一致的(如,用於商品分類的部門編碼存在差異)。
以上是資料質量的三要素,是大型資料庫的共同特點。而導致三要素出現的原因有多種:
時效性(有的資料在資料庫中需要實時更新,再資料探勘分析之前未更新的資料將會嚴重影響資料質量)
可信性(反映有多少資料是使用者信賴的)
可解釋性(反映資料是否容易理解,有些資料用編碼形式儲存,分析人員難以理解,會把它看成低質量的資料)
2.2 資料預處理的主要任務
資料預處理的主要步驟:資料清理、資料整合、資料歸約、資料變換。
如下圖為資料預處理的形式:
3.資料清理
3.1 缺失值
假設你需要分析顧客資料,許多元組的一些屬性(如,顧客的income)沒有記錄值。如何填寫缺失值呢?
3.1 雜訊資料
什麼是雜訊呢?雜訊是被測量的變數的隨機誤差或方差。
如何表示呢? 使用統計描述技術(如,盒圖、散點圖)和資料視覺化方法來識別代表雜訊的離群點。
給定乙個數值屬性,如price,如何「光滑」資料、去掉雜訊?
分箱:通過考察資料的「近鄰」(周圍值)來光滑有序資料值。將這些有序的值分布到一些「桶」或箱中。由於分箱方法考察近鄰值,因此進行的是區域性光滑。
如下圖是資料光滑的分箱方法:
回歸:也可用乙個函式擬合資料來光滑資料。稱為回歸。線性回歸是找出擬合兩個屬性的「最佳」直線,使得乙個屬性可以用來**另乙個。多元線性回歸,涉及多個屬性將資料擬合到乙個曲面。
離群點分析:可通過聚類來檢測離群點。直觀的,落在簇外的值被視為離群點。
4.資料整合
資料探勘經常需要資料整合——合併來自多個資料儲存的資料。合理有效的整合有助於減少結果資料集的冗餘和不一致。
由於資料語義和結構的多樣性,對資料整合提出了巨大挑戰。如何匹配多個資料來源的模式和物件,這實際上是實體識別問題。
4.1 實體識別問題
4.2 冗餘和相關分析
4.3 元組重複
除了檢測屬性間的冗餘外,還應當在元組間檢測重複(例如,對於給定的唯一資料實體,存在兩個或多個相同的元組)。
4.4 資料值衝突的檢測與處理
5. 資料歸約
資料歸約技術可以用來得到資料集的歸約表示,它很小,但任然保持了原始資料的完整性。也即在歸約後的資料集上挖掘更有效,任然產生相同的分析結果。
5.1 資料歸約的策略概述
資料歸約策略包括維歸約、數量歸約、資料壓縮
6. 資料變換與資料離散化
在資料預處理階段,資料被變換或統一,使得挖掘過程更有效,挖掘的模式可能更容易理解。
6.1 資料變換策略概述
在資料變換中,資料被變換或統一成適合於挖掘的形式。資料變換策略包括如下幾種:
資料預處理總結1
使資料服從標準正態分佈,均值為0,方差為1。做資料探勘,pandas和numpy庫肯定是要引入的,這裡就省略了。from sklearn.preprocessing import standardscaler import warnings warnings.filterwarnings ignor...
資料預處理方法總結
資料是什麼?資料就是一組物件及其屬性的集合,其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理,以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的,其中包括相似度的度量方法 抽樣以及降維技術這三個尤為重要的問題。d x y k 1 n xk yk 2 x...
資料預處理方法總結
資料是機器學習的原料,機器學習是通過對資料的訓練才得到某種特性的。因此正確的預處理資料對模型結果的輸出尤為重要。一 資料可能存在的問題 資料一開始可能有資料重複,資料缺失,資料存在異常值等情況。二 資料預處理的步驟 資料處理主要包括資料的清洗,資料的轉化.資料描述,特徵選擇和特徵抽取這幾個步驟。1 ...