接下來介紹的幾個資料轉換常見型別與問題無關,並可能改善資料探勘的結果。在特定應用中選擇和使用技術,取決於資料的型別,資料量和資料探勘任務的一般特徵。
1. 標準化
一些資料探勘方法,一般是那些基於n維空間中的點間距離計算的方法,可能需要對資料進行標準化,以獲得最佳結果。測量值可按比例對應到乙個特定的範圍。如【-1,1】或者【0,1】。如果沒有標準化,距離測量值將會超出數值較大的特徵。資料的標準化有許多方法,這裡列舉3個簡單有效的標準化技術。
1) 小數縮放,小數縮放移動小數點,但仍然保留大多數原始數值。常見的縮放是使值在-1 到 1的範圍。小數縮放可以表示為等式:
v'(i) = v(i)/(10的k次冪)
在這個等式中,v(i)是特徵v對樣本i的值,v(i)' 是縮放後的值,k是保證|v'(i)| 的最大值小於1的最小比例。
首先,在資料集中找對|v'(i)|的最大值,然後移動小數點,直到得出乙個絕對值小於1的縮放新值。這個因子可用於所有的其他的v(i)
2)最小-最大標準化。假設特徵v的資料在150~250的範圍之間,則前述的標準化方法使所有標準化後的資料取值在0.15~0.25之間。但是這會讓值堆積在這個取值範圍的乙個小的子區間中。要使值在整個的標準化區間如【0,1】上獲得較好的分布,可以用最小-最大公式:
v'(i) = (v(i) - min[v(i)])/(max[v(i)] - min[v(i)])
其中特徵v的最小值和最大值是通過乙個集合自動計算的,或者是通過特定領域的專家估算出來的。這種轉換也可應用於標準化區間【-1,1】。最大值和最小值的自動計算需要對整個資料集進行另一次搜尋,但是計算過程很簡單。另一方面,最小值和最大值的專家估算可能導致標準化值的無意集中。
3)標準差標準化,按標準差進行的標準化對距離測量值非常有效,但是把初始資料的轉化成了未被認可的形式。對於特徵v,平均值mean(v) 和 標準差sd(v)是針對整個資料集進行計算的。那麼對於樣本i,用下述等式來轉換特徵的值:
v(i) = (v[i] - mean[v])/sd(v)
標準化對幾種資料探勘方法來說很有用,,但是標準化並不是一次性或乙個階段的事件。如果一種方法需要標準化資料,就要為所選的資料探勘技術對可用的資料進行轉換和準備,還必須對資料探勘的所有其他階段,所有的新資料和未來資料進行同樣的資料標準化。因此,必須把標準化的引數和方法一起儲存。
2、資料平整
數值型的特徵y可能包括許多不同的值,有時跟訓練案例數一樣多。對許多資料探勘技術來說,這些值之間的微小區別並不重要,但可能會降低挖掘方法的效能,影響最終結果。這些值可以看作同一潛在值的隨機變差。因此,有時候對變數值進行平整處理。
很多簡單的平整方法可以計算類似測量值的平均值。
3. 差值 和 比率
差值和比率可以改進對目標的描述,尤其是在將它們應用於輸出特徵時。
有時候,這些轉換得到的效果要好於**乙個數的簡單初始目標描述。對於很多資料探勘方法來講,選項數量較少,可以提高演算法效率。
比率是第二種簡單的目標或者輸出特徵轉換方法,用s(t+1)/s(t)作為資料探勘過程的輸出代替絕對值s(t+1),意味著特徵鎮的增減量也能提高整個資料探勘過程的效能。
差值和比率轉換不僅對輸出特徵有用,對輸入特徵也同樣有用。它們可作為乙個特徵的時間變化或用作不同輸入特徵的合成。
不存在普遍使用的資料轉換方法。最終注意的是最終表現。
資料探勘之資料準備 原始資料的描述
資料樣本是資料探勘過程的基本組成部分,每個樣本都用幾個特徵來描述,每個特徵都有不同型別的值。首先介紹兩種常見的基本型別 數值型 和 分型別 數值型值包括實型變數和整型變數如年齡,速度或長度。數值型特徵有兩個重要的屬性 其值有順序關係和距離關係。與其形成對照的是,分型別變數沒有上述兩種關係,分型別變數...
PHP獲取POST的原始資料
一般我們都用 post或 request兩個預定義變數來接收post提交的資料。但如果提交的資料沒有變數名,而是直接的字串,則需要使用其他的方式來接收。方法一 使用全域性變數 globals http raw post data 來獲取。方法二 使用file get contents php inp...
資料探勘 資料的準備
1 資料的收集 2 資料抽樣 注意其代表性和隨機性 代表性指的是樣本與總體的接近程度 隨機性反映樣本被抽中純屬偶然 例如 在對總體質量狀況一無所知的情況下,採用簡單隨機抽樣最為合理 在對總體質量有一定的了解情況下,採用分層隨機或系統隨機抽樣可提高其代表性 而對於簡單隨機抽樣有困難的情況下,可採用隨機...