weka在做資料預處理的時候針對attribute提供了多種方式,包括值的各種轉換,常用的如下:
1.缺失值處理
weka.filters.unsupervised.attribute.replacemissingvalues。 對於數值屬性,用平均值代替缺失值,對於nominal屬性,用它的mode(出現最多的值)來代替缺失值。
2.規範化處理
類weka.filters.unsupervised.attribute.normalize。規範化給定資料集中的所有數值屬性值,類屬性除外。結果值預設在區間[0,1],但是利用縮放和平移引數,我們能將數值屬性值規範到任何區間。如:但scale=2.0,translation=-1.0時,你能將屬性值規範到區間[-1,+1]。
3.標準化處理
類weka.filters.unsupervised.attribute.standardize。標準化給定資料集中所有數值屬性的值到乙個0均值和單位方差的正態分佈。
4.離散化處理
類weka.filters.supervised.attribute.discretize和weka.filters.unsupervised.attribute.discretize。分別進行監督和無監督的數值屬性的離散化,用來離散資料集中的一些數值屬性到分類屬性。
**如下:
replacemissingvalues filter = new replacemissingvalues();
filter.setinputformat(instances);
instances newtrain = filter.usefilter(instances, filter);
WEKA中的資料預處理
資料預處理包括資料的缺失值處理 標準化 規範化和離散化處理。資料的缺失值處理 weka.filters.unsupervised.attribute.replacemissin alues。對於數值屬性,用平均值代替缺失值,對於nominal屬性,用它的mode 出現最多的值 來代替缺失值。標準化 ...
資料探勘之資料預處理
現實情況中,你的資料可能是不完整的 缺少屬性值或某些感興趣的屬性或僅包含聚類資料 含雜訊的 包含錯誤或存在偏離期望的離群值 並且是不一致的。資料清理 填寫缺失的值 光滑雜訊資料 識別或刪除離群點並解決不一致性 資料整合 當資料來自多個資料來源時,而同乙個屬性在不同資料來源不同,合成時存在冗餘 資料規...
資料預處理之資料規約
1 x mean std為什麼會改變資料的分布?2 標準化與歸一化各自的適用場景與憂缺?3 robustscaler 的優點?參 4 標準化的缺點 會改變資料的分布?標準化中的均值與方差是基於所有資料計算的,包含了異常值,因此標準化後,異常值的離群特性會變得不明顯 可通過robustscaler解決...