2.離散化的優勢
3.總結
在機器學習中,常常有這樣的乙個做法,就是將資料給離散化,下面我們將**一下,為什麼要將資料給離散化,這樣做有什麼好處呢?
資料離散化是指將連續性的資料進行分段,讓他變成一段段離散化的區間, 分段的原則有:等距離分段,等頻率或優化的方法
1.1 演算法的需要
在我們學習的決策樹和樸素貝葉斯演算法都是基於離散型的資料進行展開的,有效的離散化處理,可以減少演算法的時間和空間的開銷,提高系統對於樣本的分類聚類能力和抗噪音能力
1.2離散化的特徵更好的理解
比如:將人的體重40kg和80kg,我們可以將連續性的特徵進行劃分,將他們劃分為胖和瘦
1.3可以有效的克服資料中隱藏的資料缺陷我們很少將連續型的資料作為邏輯回歸的模型的特徵輸入,而是將資料離散為0,1特徵,交給邏輯回歸模型,這樣做的好處:
1.離散特徵的增加和減少都很容易,方便模型的迭代
2.悉數向量內積乘法運算速度快,,計算結果方便儲存,容易擴充套件
3.離散化後的特徵對異常資料有很強的魯棒性:比如乙個特徵是年齡》30是i,否則0。如果特徵沒有離散化,乙個異常資料「年齡300歲」會給模型造成很大的干擾
4.邏輯回歸屬於廣義線性模型,表達能力受限;單變數離散化為n個後,每個變數有單獨的權重,相當於為模型引入了非線性,能夠提公升模型表達能力,加大擬合
在我們的演算法決策樹和樸素貝葉斯中,將資料離散化可以很方便的排除異常資料的干擾,方便快速的提高演算法的執行效率
資料離散化
離散化有兩種方法 第一種,先看一段 const int n 1e5 7 int t n a n int main 在這段 中,a經過離散,範圍就變成了m。解釋一下,unique是c 自帶的乙個函式,表示對乙個數列去重,然後返回不重複的元素個數,當然在後面要減去首位址。那麼這種離散化對於有重複元素的數...
資料離散化
一 概述 資料離散化是乙個非常重要的思想。為什麼要離散化?當以權值為下標的時候,有時候值太大,存不下。所以把要離散化的每乙個陣列裡面的數對映到另乙個值小一點的陣列裡面去。打個比方,某個題目告訴你有10 4個數,每個數大小不超過10 10,要你對這些數進行操作,那麼肯定不能直接開10 10大小的陣列,...
資料離散化
今天執行 資料離散化 部分 時出錯,環境python3.6 pycharm,網上各種查詢資料後發現原 主要是三個地方需要修改 下面紅色部分,原有問題 被注釋掉了 修改並新增了部分注釋。coding utf 8 資料規範化 import pandas as pd datafile data discr...