1規定劃分區間的引數,取定長的間隔將特徵放入不同的箱子中,這種方法對異常點比較敏感。,
2 根據頻率劃分箱子,會出現特徵相同卻不在乙個箱子中的情況,需要在劃分完成後進行微調。
先對特徵值進行sort,然後評估分割點,劃分或者合併
3 1r方法:將前面的m個例項放入箱子中如果後面例項放入箱子時,比對當前例項的標籤是否與箱子中大部分例項標籤相同,如果相同就放入,如果不相同就形成下乙個m大小的新箱子,將例項全部放入箱子後,將箱子中大多數例項標籤作為箱子的標籤,再將標籤相同的箱子合併
4 基於卡方的離散方法:將數值特徵的每個不同值看做乙個區間對每個相鄰的區間計算卡方統計量,如果大就合併,如果不大於閾值就停止。
5 或者基於熵的離散方法:使用合成或者**的方法根據熵計算和閾值判定來judge是合成還是**。
特徵離散化
在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 0.離散特徵的增加和減少都很容易,易於模型的快速迭代 1.稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 2.離散化後的特徵對異常資料有很強的魯棒性 比如...
特徵工程 資料離散化方法
離散化特徵的增加和減少都很容易,有利於模型的快速迭代 可以有效地避免一些異常資料的干擾,降低資料波動的影響,提高抗雜訊能力,模型結果更穩定 一些演算法的需要,如分類樹 樸素貝葉斯演算法等,是基於離散化資料展開的 減小演算法的空間和時間開銷,起到簡化模型的作用,降低過擬合的風險,提高系統的分類聚類能力...
連續特徵離散化
參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...