資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。資料離散化的原因主要有以下幾點:
比如決策樹、樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣本的分類聚類能力和抗雜訊能力。
比如工資收入,月薪2000和月薪20000,從連續型特徵來看高低薪的差異還要通過數值層面才能理解,但將其轉換為離散型資料(底薪、高薪),則可以更加直觀的表達出了我們心中所想的高薪和底薪。
在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0、1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點:
1、無監督學習方法
等寬法即是將屬性值分為具有相同寬度的區間,區間的個數k根據實際情況來決定。比如屬性值在[0,60]之間,最小值為0,最大值為60,我們要將其分為3等分,則區間被劃分為[0,20] 、[21,40] 、[41,60],每個屬性值對應屬於它的那個區間
等寬法即是將屬性值分為具有相同寬度的區間,區間的個數k根據實際情況來決定。比如有60個樣本,我們要將其分為k=3部分,則每部分的長度為20個樣本。
基於聚類的方法分為兩個步驟,即:
選定聚類演算法將其進行聚類
將在同乙個簇內的屬性值做為統一標記。
注:基於聚類的方法,簇的個數要根據聚類演算法的實際情況來決定,比如對於k-means演算法,簇的個數可以自己決定,但對於dbscan,則是演算法找尋簇的個數。
2、有監督學習方法:
離散變數和連續變數
離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量...
連續變數離散化的幾種方法
連續變數離散化有三種方法 1.等寬離散化 2.等頻離散化 3.利用聚類進行離散化 import numpy as np import pandas as pd 引數初始化 datafile data discretization data.xls 讀取資料 data pd.read excel da...
特徵的轉換 02 連續變數的離散化
今日記事 把頭髮高高盤起,畫上一字眉。工作後就少了太多銳氣,磨得圓滑尚且是好,但圓了就難免要缺失點篤定的方向,最怕滾來滾去,滾回起點。而方向越篤定,心越沉下來,難免要變得好安靜。binarizer是將連續型變數根據某個閥值,轉換成二元的分類變數。小於該閥值的轉換為0,大於該閥值的轉換為1.如下 輸入...