在資料探勘過程中,資料預處理工作量佔到整個過程的60%。
刪除記錄
資料插補
不處理刪除含有異常值的記錄
視為缺失值
平均值修正
不處理很多情況下,要先分析異常值出現的可能原因,再判斷異常值是否應該捨棄,如果是正確資料,可以直接用於資料探勘。
將多個資料來源合併存放在乙個一致的資料儲存(如資料倉儲)中的過程。
同名異義
異名同義
單位不統一
同一屬性多次出現
同一屬性命名不一致導致重複
對資料規範化
對原始資料進行某些數學函式變換,常用的變換包括平方、開方、取對數、查分運算等。
常用來將不具有正態分佈的資料變換成具有正態分佈的資料。在時間序列分析中,有時簡單的對數變換或者查分運算就可以將非平穩序列轉換成平穩序列。
消除指標之間的量綱和取值範圍差異的影響,將資料按照比例進行縮放,使之落入乙個特定的區域,便於進行綜合分析。
資料規範化對於基於距離的挖掘演算法尤為重要。
最小-最大規範化:也稱離差標準化,對原始資料的線性變換,將數值對映到[0,1]之間。
零-均值規範化:經過處理的數值均值為0,標準差為1。
小數定標規範化:通過移動屬性值的小數字數,將屬性值對映到[-1, 1]之間,移動的小數字數取決於屬性值絕對值的最大值。
data_n1 = (data - data.min())/(data.max() - data.min()) #最小-最大規範化
data_n2 = (data - data.mean())/data.std() #零-均值規範化
data_n3 = data/10**np.ceil(np.log10(data.abs().max())) #小數定標規範化
一些資料探勘演算法,特別是分類演算法(id3,apriori),要求資料是分類屬性形式。需要將連續屬性變換成分類屬性,即連續屬性離散化。
連續屬性的離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或整數值代表落在每個子區間中的資料值。兩個主要任務:
確定分類數
如何將連續屬性值對映到這些分類值
等寬法等頻法
基於聚類的方法
為了提取更多有用的資訊,挖掘更深層次的模式,提高挖掘結果的精度,利用已有的屬性集構造出新的屬性。
小波變換是一種新型的資料分析工具,是近年來興起的訊號分析手段,小波分析的理論和方法在訊號處理、影象處理、語音處理、模式識別、量子物理等領域得到越來越廣泛的應用,是工具方法上的重大突破。
小波變換可以把非平穩訊號分解為表達不同層次、不同頻帶資訊的資料序列,即小波係數。選擇適當的小波係數,即完成了訊號的特徵提取。
基於小波變換的特徵提取方法
小波基函式
小波基函式是一種具有區域性支集的函式,並且平均值為0,小波基函式滿足ψ(0)=∫ψ(t)dt=0。常用的小波基有harr小波基,db系列小波基。
小波變換
降低無效、錯誤資料對建模的影響,提高建模的準確性
少量且具有代表性的資料將大幅縮減資料探勘所需的時間
降低儲存資料的成本
通過屬性合併來建立新屬性維數,或者直接通過刪除不相關的屬性(維)來減少資料維數,從而提高資料探勘的效率、降低計算成本。目標是尋找出最小的屬性子集。
逐步向前選擇、逐步向後刪除和決策樹歸納是屬於直接刪除不相關屬性(維)方法。主成分分析是一種用於連續屬性的資料降維方法,它構造了原始資料的乙個正交變換,新空間的基底去除了原始空間基底下資料的相關性,只需使用少數新變數(主成分)就能夠解釋原始資料中的大部分變異。
通過選擇替代的、較小的資料來減少資料量,包括有引數方法和無引數方法兩類。有引數方法時使用乙個模型來評估資料,只需要存放引數,而不需要存放實際資料,例如回歸(線性回歸和多元回歸)和對數線性模型(近似離散屬性集中的多為概率分布)。無引數方法就需要存放實際資料,例如直方圖、聚類、抽樣(取樣)。
直方圖:將屬性值壓縮到多個桶中,每個桶是該屬性的乙個連續區間
聚類:將資料元組視為物件,劃分成簇,用簇替換實際資料。有效性依賴於簇的定義是否符合資料的分布性質
抽樣:用比原始資料小得多的隨機樣本(子集)表示原始資料集。1)s個樣本無放回簡單隨機抽樣;2)s個樣本有放回簡單隨機抽樣;3)聚類抽樣;4)分層抽樣
引數回歸:簡單線性模型和對數線性模型可以用來近似描述給定的資料。線性模型對資料建模,使之擬合一條直線。
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...