對於資料屬性型別的一些認識

2021-10-25 08:01:56 字數 1289 閱讀 7351

在基本的結構化資料中,物件與屬性構成了二維表。如:編號為15的物件,其質量為1.6千克。

屬性的型別比較簡單。

列舉型/符號型

如顏色(紅、黃、藍),形狀(方形、圓形、三角形)等等。

布林型可以看作列舉型的特例。

距離計算時,不同列舉型值的距離常設定為1. 實型

實型屬性最為常見,如長度、寬度。很多方法把所有資料基本型別都統一為實型。針對實型的距離計算很直接。

資料預處理階段,經常將實型屬性歸一化到區間 [0,

1]

[0, 1]

[0,1

]或 [−1

,1

][-1, 1]

[−1,1]

。整型在距離計算方面,整型比較靠近實型;在值域大小方面,整形比較靠近列舉型。

區間型如 [

36.2

,36.8

][36.2, 36.8]

[36.2,

36.8

]表示乙個人某天的體溫。

模糊型這裡涉及隸屬度的概念。好吧我沒做模糊數學方面的研究…

屬性的附加資訊並不出現在資訊表之中,但它可以幫助我們更準確地分析資料。

代價測試代價是指為獲得某個屬性的值,所需要花費的時間、金錢等。簡單的情況下,每個屬性的測試代價可用乙個正整數表示。複雜的情況,可參見a hierarchical model for test-cost-sensitive decision systems, information sciences.

誤分類代價是指將第 i

ii類資料誤分類為第 j

jj類時的代價,它通常可用乙個 k×k

k \times k

k×k矩陣來表示,其中 k

kk為決策類別數。

延遲代價在決策粗糙集中考慮。

層級結構

當列舉型屬性的值域比較大時,有可能附帶層級結構。如:行政區域屬性的值域為 ,生物屬性的值域為 ,這些值閾本身具有乙個層級(樹型)結構。相應的屬性,可稱為「帶層級結構的列舉型」。

建立生物的層級結構通常是生物學家的事情,資料分析師想要插手也是可能的,通常可以使用聚類的方法,特別是層次聚類。

利用生物的層級結構進行機器學習,則是前沿研究課題。如:根據物件的顏色、形狀、食譜、速度,判斷它是波斯貓,比四肢動物更準確(在沒弄錯的情況);利用乙個物件是二哈這一條件(其它條件包括年齡、體重、健康程度等),比把它當作狗,在選擇合適寵物的時候要更有利。

未完待續…

新手對於ros control 的一些認識

我認為,對於ros control的基本作用,就是把應用與實際機械人連線起來,包含一系列控制器介面 傳動裝置介面 硬體介面 控制器工具箱等等。它的總體框架 如下圖 就是對應不同的控制器,提供不同的介面,但是這樣藉口不同,針對不同的介面寫不同的 實在太過於繁瑣,於是,它又自己建立了乙個硬體抽象層,提高...

小白對於linux的命令的一些基礎認識

linux命令 linux命令的分類cd 就是內部命令 ping 就是外部命令 對於核心操作的都是內部命令 內部命令沒有真實的檔案在本地,靠shell提供的。shell檔案裡包含了所有的內部命令 比如後安裝的程式,都是外部命令,linux命令的通用命令格式 選項及引數的含義 命令列編輯的幾個輔助操作...

winpcap的一些認識

一 winpcap簡介 winpcap是unix下的libpcap移植到windows下的產物,他是乙個freeandopensource的專案。winpcap工作於驅動 driver 層,所以能以很高的效率進行網路操作。winpcap提供了以下強大的功能 1 捕獲原始的資料報 2 設定filter...