定義
資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。
資料離散化的原因主要有以下幾點:
演算法需要
比如決策樹、樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣本的分類聚類能力和抗雜訊能力。
離散化的特徵相對於連續型特徵更易理解,更接近知識層面的表達
比如工資收入,月薪2000和月薪20000,從連續型特徵來看高低薪的差異還要通過數值層面才能理解,但將其轉換為離散型資料(底薪、高薪),則可以更加直觀的表達出了我們心中所想的高薪和底薪。可以有效的克服資料中隱藏的缺陷,使模型結果更加穩定
在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點:
1、離散特徵的增加和減少都很容易,易於模型的快速迭代;
2、稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件;
3、離散化後的特徵對異常資料有很強的魯棒性:比如乙個特徵是年齡》30是1,否則0。如果特徵沒有離散化,乙個異常資料「年齡300歲」會給模型造成很大的干擾;
4、邏輯回歸屬於廣義線性模型,表達能力受限;
5、單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合;
6、離散化後可以進行特徵交叉,由m+n個變數變為m*n個變數,進一步引入非線性,提公升表達能力;
7、特徵離散化後,模型會更穩定,比如如果對使用者年齡離散化,20-30作為乙個區間,不會因為乙個使用者年齡長了一歲就變成乙個完全不同的人。當然處於區間相鄰處的樣本會剛好相反,所以怎麼劃分區間是門學問;
8、特徵離散化以後,起到了簡化了邏輯回歸模型的作用,降低了模型過擬合的風險。
連續變數離散化的原因
資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離 等頻率或優化的方法。資料離散化的原因主要有以下幾點 比如決策樹 樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣...
演算法 離散化 離散化的簡單實現與運用
有一些數值的絕對數值過大,但是資料個數相對較小,為了方便統計,且需要去重,我們引入了離散化這一概念。在離散化中,每乙個絕對數值都對應的對映乙個離散數值。例如有n 3時有三個數 這三個數的絕對數值較大,但是n較小,如果題目對絕對數值對答案沒有意義只是起到了相對大小的比較或者統計的作用,我們可以吧這三個...
離散化與區間合併
區間合併 ps適用問題 需要開闢長度很大的陣列統計資料 109 但實際使用的元素個數很少 105 解決方法 當值域大,但是個數小的一組數,可以通過離散化,將值對映為下標來縮小範圍 例如 a 1,3,100,2000,500000 0 1 2 3 4 a 中可能有重複元素,進行去重 一對一對映 計算x...