離散變數是指其數值只能用自然數或整數單位計算的則為離散變數.例如,企業個數,職工人數,裝置台數等,只能按計量單位數計數,這種變數的數值一般用計數方法取得.
反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量的身高,體重,胸圍等為連續變數,其數值只能用測量或計量的方法取得.
如果變數可以在某個區間內取任一實數,即變數的取值可以是連續的,這隨機變數就稱為連續型隨機變數,
比如,公共汽車每15分鐘一班,某人在站台等車時間x是個隨機變數,
x的取值範圍是[0,15),它是乙個區間,從理論上說在這個區間內可取任一實數3.5、√20等,因而稱這隨機變數是連續型隨機變數。
連續變數離散化的原因
資料離散化是指將連續的資料進行分段,使其變為一段段離散化的區間。分段的原則有基於等距離 等頻率或優化的方法。資料離散化的原因主要有以下幾點 比如決策樹 樸素貝葉斯等演算法,都是基於離散型的資料展開的。如果要使用該類演算法,必須將離散型的資料進行。有效的離散化能減小演算法的時間和空間開銷,提高系統對樣...
連續變數離散化的幾種方法
連續變數離散化有三種方法 1.等寬離散化 2.等頻離散化 3.利用聚類進行離散化 import numpy as np import pandas as pd 引數初始化 datafile data discretization data.xls 讀取資料 data pd.read excel da...
特徵的轉換 02 連續變數的離散化
今日記事 把頭髮高高盤起,畫上一字眉。工作後就少了太多銳氣,磨得圓滑尚且是好,但圓了就難免要缺失點篤定的方向,最怕滾來滾去,滾回起點。而方向越篤定,心越沉下來,難免要變得好安靜。binarizer是將連續型變數根據某個閥值,轉換成二元的分類變數。小於該閥值的轉換為0,大於該閥值的轉換為1.如下 輸入...