資料特徵工程之量化裝箱

假設這樣乙個資料集，裡面某些屬性的值差異很大，小的可能是10以內，大至幾百幾千，這樣我們該如何去量化呢？直接將它們送入模型可行嗎？

其實對於許多模型來說，跨越數個數量級的屬性數值是有問題的。屬性數值中較大的數值可能破壞包含歐式距離的模型演算法，如k-均值聚類，它使用相似性函式來測量資料點之間的相似性。k-均值使用資料點之間的歐幾里得距離。資料向量的屬性中較大元素的值將超過所有其他元素中的相似性，這可能會丟棄整個相似性度量。

一種解決方案是通過量化計數來包含標量。換句話說，我們將計數分組到容器中，並且去掉實際的計數值。量化將連續數對映成離散數。我們可以把離散化的數字看作是代表強度度量的容器的有序的序列。

為了量化資料，我們必須決定每乙個箱子應該有多寬。解決方案分為固定寬度或自適應兩種型別。我們將給出每個型別的例子。

特徵工程之特徵選擇

在前一篇文章中我介紹了一些資料預處理的方法，原始資料在經過預處理之後可以被演算法處理了，但是實際中可能有一些特徵是沒有必要的，比如在中國採集的一些資料，那麼國籍就都是中國，其實也就沒有意義了，反映在統計量上就是方差過小，也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小，也就是...

特徵工程之特徵選擇

特徵選擇其實就是減少屬性個數，為什麼要這麼做呢？直接使用原始資料來訓練模型的話，雖然說在訓練模型上的準確率會非常高，但是在測試樣本上的準確率將會大打折扣，也就是會產生過擬合的現象。所以說需要選擇出最適合的屬性進行訓練。特徵選擇的原因 2 雜訊部分特徵對結果又影響進行特徵選擇的時候有兩種情況一...

特徵工程之特徵表達

在特徵工程之特徵選擇中，我們講到了特徵選擇的一些要點。本篇我們繼續討論特徵工程，不過會重點關注於特徵表達部分，即如果對某乙個特徵的具體表現形式做處理。主要包括缺失值處理，特殊的特徵處理比如時間和地理位置處理，離散特徵的連續化和離散化處理，連續特徵的離散化處理幾個方面。特徵有缺失值是非常常見的，大部分...

資料特徵工程之量化裝箱

特徵工程之特徵選擇

特徵工程之特徵選擇

特徵工程之特徵表達

相關推薦