機器學習中資料的屬性型別

2021-09-17 21:45:20 字數 1630 閱讀 2612

本文簡單介紹機器學習中資料的屬性型別,針對資料的不同屬性型別需要不同的資料預處理方法。

資料集由資料物件組成,乙個資料物件代表乙個實體。資料物件又稱樣本、例項、資料點或物件。屬性(attribute)是乙個資料字段,表示資料物件的乙個特徵。屬性向量(或特徵向量)是用來描述乙個給定物件的一組屬性。屬性有不同型別:標稱屬性(nominal attribute)、二元屬性(binary attribute)、序數屬性(ordinal attribute)、 數值屬性(numerical attribute)、離散屬性與連續屬性。

標稱屬性的值是一些符號或實物的名稱,每個值代表某種類別、編碼或狀態,所以標稱屬性又被看做是分型別的屬性(categorical)。這些值不必具有有意義的序,並且不是定量的。

二元屬性是一種標稱屬性,只有兩個類別或狀態:0或1,其中0常表示不出現,1表示出現。如果將0和1對應於false和true,二元屬性則為布林屬性。

**序數屬性可能的取值之間具有有意義的序或秩評定,**但相繼值之間的差是未知的。例如,學生的成績屬性可以分為優、良、中、差四個等級;某快餐店的飲料杯具有大、中、小三個可能值。然而,具體「大」比「中」大多少是未知的。

**序數屬性可用於記錄不能客觀度量的主觀質量評估。**因此,序數屬性常用於等級評定調查。如某銷售部門客戶服務質量的評估,0表示很不滿意,1不太滿意,2表示中性,3表示滿意,4表示非常滿意。

通過資料預處理中的資料規約,序數屬性可以通過將資料的值域劃分成有限個有序類別,將數值屬性離散化而得到。應注意的是,標稱、二元和序數屬性都是定性的,只描述樣本的特徵,而不給出實際大小或數量。下面介紹提供樣本定量度量的數值屬性

數值屬性是可度量的量,用整數或實數值表示,有區間標度和比率標度兩種型別。

區間標度屬性用相等的單位尺度度量。區間屬性的值有序。所以,除了秩評定之外,這種屬性允許比較和定量評估值之間的差。例如,身高屬性是區間標度的。假設我們有乙個班學生的身高統計值,將每乙個人視為乙個樣本,將這些學生身高值排序,可以量化不同值之間的差。a同學身高170cm比b同學165cm高出5cm。

對於沒有真正零點的攝氏溫度和華氏溫度,其零值不表示沒有溫度。例如,攝氏溫度的度量單位是水在標準大氣壓下沸點溫度與冰點溫度之差的1/100。儘管可以計算溫度之差,但因沒有真正的零值,因此不能說10℃比5℃溫暖2倍,不能用比率描述這些值。但比率標度屬性存在真正的零點。

**比率標度屬性的度量是比率的,可以用比率來描述兩個值,即乙個值是另乙個值的倍數,也可以計算值之間的差。**例如,不同於攝氏和華氏溫度,開氏溫度具有絕對零點。在零點,構成物質的粒子具有零動能。比率標度屬性的例子還包括字數和工齡等計數屬性,以及度量重量、高度、速度的屬性。

前面介紹的四種屬性型別之間不是互斥的。我們還可以用許多其他方法來組織屬性型別,使型別間不互斥。機器學習領域的分類演算法常把屬性分為離散的或連續的屬性。不同型別有不同的處理方法。

離散屬性具有有限或無限可數個值。如學生成績屬性,優、良、中、差;二元屬性取1和0以及年齡屬性取0到110。如乙個屬性可能取值的值集合是無限的,但可以建立乙個與自然數的一一對應,則其也是離散屬性。如果乙個屬性不是離散的,則它是連續的。注意:在文獻中,術語 「數值屬性」 和「連續屬性」常可以互換使用,因此,「連續屬性」也常被稱為「數值屬性」。

資料屬性的型別

原文 資料集由資料物件組成,乙個資料物件代表乙個實體。資料物件又稱樣本 例項 資料點或物件。屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。屬性向量 或特徵向量 是用來描述乙個給定物件的一組屬性。屬性有不同型別 標稱屬性 nominal attribute 二元屬性 binary ...

資料屬性型別

資料集由資料物件組成,乙個資料物件代表乙個實體。資料物件又稱樣本 例項 資料點或物件。屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。屬性向量 或特徵向量 是用來描述乙個給定物件的一組屬性。屬性有不同型別 標稱屬性 nominal attribute 二元屬性 binary att...

資料屬性型別

資料集由資料物件組成,乙個資料物件代表乙個實體。資料物件又稱樣本 例項 資料點或物件。屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。屬性向量 或特徵向量 是用來描述乙個給定物件的一組屬性。屬性有不同型別 標稱屬性 nominal attribute 二元屬性 binary att...