資料探勘之資料準備 原始資料的描述

2021-09-23 17:53:58 字數 2006 閱讀 8504

資料樣本是資料探勘過程的基本組成部分,每個樣本都用幾個特徵來描述,每個特徵都有不同型別的值。

首先介紹兩種常見的基本型別:數值型 和 分型別

數值型值包括實型變數和整型變數如年齡,速度或長度。

數值型特徵有兩個重要的屬性:其值有順序關係和距離關係。

與其形成對照的是,分型別變數沒有上述兩種關係,分型別變數的兩個值可以相等或者不等。它們只建立一種等同關係(藍色=藍色 或者 紅色 != 藍色),這種型別變數的例子有眼睛顏色,性別,國籍。若分型別變數有兩個值,則原則上它可以轉換成乙個二進位制的數值型變數,這種數值型變數有兩個值:0或1.

具有n個值的分型別變數可以轉換成n個二進位制數值型變數,即乙個二進位制數值對應分型別變數的乙個值。

另一種基於變數值的變數分類方法是,根據它是連續型變數還是離散型變數來分類。

連續型變數也稱為定量型或度量型變數,可以使用間隔尺度比例尺度來衡量。這兩種尺度都允許在理論上無限精密地定義或者度量變數。而這兩種尺度的區別在於它們定義零點方式。在間隔尺度中,零點的位置是任意的,因此,零點並不代表被測變數沒有值。間隔尺度最佳的例子是溫度尺度。

相反,比例尺度有絕對的零點。所有用這種尺度測量變數之間存在真實的比例關係。

在大型資料集中,連續型變數用例項或者整型值來表示。

離散型變數也叫做定性型變數,這種變數用兩種非度量的尺度——名義尺度或有序尺度——來衡量或定義它的值。

名義尺度是無序的,它使用不同的符號,字元和數字來表示被測量變數的不同狀態。名義尺度的乙個例子是通用的顧客型別的識別符號。

有序尺度包括規則的,離散的順序,例如排名。有序變數是定義了順序關係而沒有定義距離關係的分型別變數。有序屬性的例子有學生在班上的排名以及體育競賽中的金牌,銀牌和銅牌。有序尺度未必是線性的。在有序尺度中,有序屬性只有大於,等於或小於關係。一般情況下順序變數可以把數值型變數編碼成為和有序變數值相對應的小交集。

一種特殊的離散型變數是週期變數,週期變數的特徵是存在距離關係,而不存在順序關係,如星期,月或日。

最後另一種資料分類緯度是基於資料與時間有關的行為特性。一些資料不隨時間的變化而變化,它們成為靜態資料。另一方面,也有隨時間變化而變化的屬性值叫做動態資料或者時間資料。

大多數資料探勘方法更適合於靜態資料,挖掘動態資料時,常常需要特殊的考慮和預處理。

產生大多數資料探勘問題的原因是,大量的樣本具有不同型別的特徵,此外,這些樣本往往是高緯度的。這就意味者它們有極多的可測量特徵。大資料集中這些多餘的緯度產生了資料探勘術語中所謂的「維數災」。它是由高緯空間幾何學產生的。

高緯度空間特性常常是違反直覺的。因為我們所在的世界是乙個低緯度空間如二維空間或者三維空間。

高緯資料的4個重要屬性會影響輸入資料和資料探勘結果的解釋。

1、若資料集在n緯度空間中生成密度相同密度的資料點,則該資料集的大小隨維數呈指數增長。

2、在高維空間中,需要更大的半徑才能放入一小部分資料點。對給定的子樣本,可以用公式e(p) = p的d分之一次冪  測定超立方體邊長e,其中,p是預先指定的字樣本,d是維數。

通過上述公式表明,即使想獲取資料的一小部分,也需要非常大的領域。

3、在高緯度空間中,幾乎每個點都比其他樣本點更接近某一邊界。在d維空間中,對大小維n的樣本來講,資料點之間的期望值距離d為:

d(d,n) = 1/2((1/n)的d分之一次冪)

4、幾乎每個點都是異常點,當輸入空間的緯度增加時,**點到分類點中心的距離也在增加。每個新樣本的**點都像是初始分類資料的異常點。

資料集的維數增加時,資料將越來越稀疏,在這些資料所在的空間中,他們大都是異常點。因此必須重新考慮,重新評估統計學中的傳統概念:距離,相似度,資料分布,均值,標準差等

資料探勘之資料準備 原始資料的轉換

接下來介紹的幾個資料轉換常見型別與問題無關,並可能改善資料探勘的結果。在特定應用中選擇和使用技術,取決於資料的型別,資料量和資料探勘任務的一般特徵。1.標準化 一些資料探勘方法,一般是那些基於n維空間中的點間距離計算的方法,可能需要對資料進行標準化,以獲得最佳結果。測量值可按比例對應到乙個特定的範圍...

PHP獲取POST的原始資料

一般我們都用 post或 request兩個預定義變數來接收post提交的資料。但如果提交的資料沒有變數名,而是直接的字串,則需要使用其他的方式來接收。方法一 使用全域性變數 globals http raw post data 來獲取。方法二 使用file get contents php inp...

資料探勘 資料的準備

1 資料的收集 2 資料抽樣 注意其代表性和隨機性 代表性指的是樣本與總體的接近程度 隨機性反映樣本被抽中純屬偶然 例如 在對總體質量狀況一無所知的情況下,採用簡單隨機抽樣最為合理 在對總體質量有一定的了解情況下,採用分層隨機或系統隨機抽樣可提高其代表性 而對於簡單隨機抽樣有困難的情況下,可採用隨機...