為了更好地討論問題,將模型的自變數分類。在模型裡使用的變數可以分為兩類:數值型變數和類別型變數。如圖1所示。
數值型變數,在學術上被稱為定量變數(quantitative variable),如長度、收入、重量等。它們的數值表示具體的測量或計數。事實上,定量變數按是否連續可進一步細分為連續型變數和離散型變數。在一定區間內可以任意取值的變數叫連續型變數,比如人的身高、體重等;反之則是離散型變數,比如公司員工人數等。
類別型變數,也被稱為定性變數(categorical variable)。比如性別、省份、學歷、產品等級等。這類變數的取值通常是用文字而非數字來表示。比如對於性別這個變數,可能的取值為男、女。因此要將文字變數轉換為數字變數,並且保證對於轉換之後的變數,數**算是有意義的,這並不是一件容易的事情。通常針對乙個類別型變數,我們會用乙個數字去表示其中的乙個類別,但這樣的轉換方法並不能滿足要求:
對於定性變數,常見的處理方法有兩種:一種是將定性變數轉換為多個虛擬變數(dummy variable),另一種對將有序的定性變數轉換為定量變數。
正如前文中討論的,直接對定性變數數字編碼,得到的變數將無法進行有意義的數**算。那麼,相應的解決方法就是使得變換之後的變數不能直接做數**算。
前面討論的虛擬變數的方法是比較通用的處理方法。但這種方法有乙個很明顯的缺點:每個虛擬變數都是0或1,無法提供更多的資訊。特別是對於多個有序的定性變數,這會損失掉每個定性變數本身的順序資訊和定性變數間的關聯資訊。為了解決這個問題,常常根據類別的順序,將定性變數轉換為定量變數。
本文參考了
C語言 常量 變數 進製轉換及資料溢位
常量 在程式中不可改變的量。變數 在程式中可以改變的量。先定義在使用。其格式 資料型別 變數名 其中變數名必須是合法識別符號。合法識別符號 1.由字母 數字 下劃線組成。2.開頭只能是數字或下劃線。3.不能是關鍵字。變數名命名時,注意 1.區分大小寫。2.顧名思義。3.命名法則。int型 16位機器...
機器學習 多變數線性回歸
注 本系列部落格是博主學習stanford大學 andrew ng 教授的 機器學習 課程筆記。博主深感學過課程後,不進行總結非常easy遺忘,依據課程加上自己對不明確問題的補充遂有此系列部落格。本系列部落格包含線性回歸 邏輯回歸 神經網路 機器學習的應用和系統設計 支援向量機 聚類 將維 異常檢測...
機器學習 單變數線性回歸
1.模型描述 1 常見的字元的意義 2 乙個監督學習演算法的工作方式 2.代價函式 1 什麼是代價函式 平方誤差函式 目標函式 我在網上找了很長時間代價函式的定義,但是準確定義並沒有,我理解的代價函式就是用於找到最優解的目的函式,這也是代價函式的作用。注意 上面的代價函式是二變數的,事實上代價函式可...