機器學習特徵連續 離散的區別

2021-09-26 14:29:49 字數 1729 閱讀 4601

現在網上關於資料探勘、機器學習中資料預處理階段關於屬性(特徵)的各種連續,離散的變換,由於用詞不清,真讓人暈頭轉向。那麼資料探勘、機器學習中用於描述屬性(特徵)的」連續「,」離散「,」連續化「,」離散化「的這幾個詞到底是什麼含義呢?

首先,韓家煒老師在他的書的第二章就對屬性的幾種型別進行了介紹:

1.標稱屬性:

即與名稱有關,標稱屬性的值是一些符號或事物的名稱。每個取值代表某種類別、或狀態。

舉個例子:對於人的頭髮顏色這個屬性可能的取值有,黑、白、棕、黃、巨集、褐、灰。職業屬性可能的取值有老師、程式設計師、醫生等。

需要注意的是:我們可以用指定的數來代表標稱屬性的取值,比如對於頭髮顏色,我們規定0代表黑,1代表白,往後推。

另外,標稱屬性是定性描述資料,進行數**算毫無意義,所以儘管可以用數代表標稱屬性的取值,但這些數不是真正意義上的數值,只是一種表示而已。

2.二元屬性:

屬於標稱屬性,屬性只有兩種取值,同樣可以用1代表一種類別(狀態),0代表剩下的另一種類別(狀態)。如性別這個屬性,只能取男或女,0代表男,1代表女

3.序數屬性

取值用於描述屬性的等級,序列,先後次序等

比如學習能力的取值可為優秀,良好,合格

總結以上三類屬性都是定性的描述,儘管也可以用數代表不同的取值,但這只是我們用於編碼的一種方式。接下來我們看另外一類屬性

4。數值屬性

定量的描述,用整數值或實數值來表示,這是可以進行數**算的一類屬性,是真正意義上的數值。

好了,了解了以上對屬性的四種分類,我們再來看看經常讓人困惑,轉暈的連續,離散,連續化,離散化到底是指什麼

先看一下統計學中關於離散變數和連續變數的含義:

離散變數指變數值可以按一定順序一一枚舉,通常以整數字取值的變數。如職工人數、工廠數、機器台數,年齡等。離散變數的數值用計數的方法取得。

反之,在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值.例如,生產零件的規格尺寸,人體測量的身高,體重,胸圍等為連續變數,其數值只能用測量或計量的方法取得。

那麼資料探勘、機器學習中的離散,連續又有什麼不同呢

離散屬性:取值可以具有有限個或無限可數個值,這個值可以用來定性描述屬性的漢字、單詞;當然也可以是整數,注意是整數,而不是浮點數,比如年齡屬性就屬於離散屬性,可取0~110之間的任意整數。無限可數是指這個屬性的可能取值的集合是無限的,但是可以建立乙個與自然數的一一對應,比如顧客編號可以從1一直往後編下去,但實際的值的集合是可數的。

連續屬性:如果屬性不是離散的,就是連續屬性了

我們平常說的屬性(特徵)離散化其實就是指把取值為連續型或者離散型的屬性(特徵)按照取值區間劃分為用來定性描述屬性取值的值(漢字、單詞)或者整數值,化為整數值是怎麼理解呢?比如,隨便舉個例子**0-50為不要錢,;51-100為便宜,分別用整數0,1表示,這個就叫離散化。不要錢和0都是離散化後對屬於0-50這個**區間的描述。離散型的屬性離散化又是什麼意思?比如年齡為離散屬性,取值為0-110這個區間,我們可以將0-16規定為小孩,17-25規定為青年,26-50為中年,51-110為老年(這是我隨便劃分的,就是隨便舉個幫助理解的例子),這個過程就叫離散屬性的離散化,當然我們也可以選擇用整數0,1,2,3來分別代表四個區間。屬性離散化的關鍵就是按照區間進行劃分,用數字型表示是為了計算機識別

屬性(特徵)連續化其實大多指的是將取值為文字類(漢字,單詞)的屬性取值變為演算法可以處理的數字型,比如性別屬性取值為」男「,」女「,進行獨熱編碼」男「就變為10,女就變為01,形式上有漢字變為了數字型,雖然10,01並不是真正意義上的連續變數。

連續特徵離散化

參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...

決策樹 特徵連續 離散,輸出連續 離散

特徵 注意 普通的dt可以多分叉,cart是二叉樹 離散 dt就正常分,cart採用二分類,對於每個類別選擇乙個離散值,其餘的合到一組 是 否分類思想 連續 都是採用二分,取值分成 兩部分 輸出 離散 分類問題,gini係數,資訊增益 連續 回歸問題,採用min 兩部分平方誤差 cart連續特徵 比...

LR連續特徵離散化

1主要目的是獲得指數級的表示能力。假如乙個n維的連續向量,即使採用最簡單的每一維二值化,也會得到2 n種特徵組合。這種表示方法對lr這種線性分類器是十分關鍵的。在超高維的特徵空間中,很多問題就都變為線性可分問題,從而可以極大提高分類器的能力。總之就是增強了特徵的表達能力,或者說更容易線性可分。2離散...