機器學習之旅 資料預處理的物件 資料

2021-08-08 20:55:04 字數 1320 閱讀 8592

資料探勘中有乙個很重要的步驟,就是資料預處理,只有拿到符合要求的資料,我們才能很好地用演算法得到想要的結果。那麼,在海量資料中,我們怎麼知道哪些資料才是我們需要的呢?所以,我們首先要知道乙個很重要的知識,就是資料型別。

資料集:通常指的是資料庫,資料集是由資料物件組成。

資料物件:通常指的是資料表中一行資料,乙個資料物件代表乙個實體,例如會員,訂單,商品等。資料物件又稱樣本,例項,資料點或者物件等。通常資料物件由屬性描述,如果屬性存放在資料庫中,那麼屬性就對應資料表中的列名。

屬性:資料物件特徵的表示。在很多資料中,屬性又稱之為「維度」,「特徵」,「變數」等。「維度」一般用在資料倉儲中,「特徵」一說更多是在機器學習領域中用到,統計學一般使用「變數」一詞。而資料探勘和資料庫行業,更多使用「屬性」。乙個物件的所有描述它的屬性,我們可以稱之為「屬性向量」或者「特徵向量」。

在不同的領域中,對屬性的型別定義也不同,不過我們一般根據屬性值的來定義屬性的型別。據此,我們得到了以下屬性型別劃分:

標稱屬性(nominal attribute):顧名思義,標稱屬性的值一般代表屬性的一些名稱含義,比如類別,編碼,狀態等。標稱屬性類似程式或者資料庫中的列舉(enumeration)的概念。

示例:衣服的s,m,l,xl等尺碼,訂單有未付款,已付款,送貨中,已送達,已關閉,退款中等狀態。

二元屬性(binary attribute):二元屬性是一種特殊的標稱屬性,只有0或者1兩種值(又稱布林屬性,如果用true或者false來表示的話)

序數屬性(ordinal attribute):序數屬性是一種特殊的列舉,其可能值明顯有排序的意義。

示例:飲料的小,中,大杯。客服的滿意度,0-很不滿意,1-不太滿意,2-一般,3-滿意,4-非常滿意。

以上的資料物件屬性,都是定性的,它們都是描述資料物件的特徵,而並不對資料進行度量,比如飲杯的小,中,大杯,只是給了乙個容量的描述,而並沒有給出具體的數值(小杯到底是多少毫公升?)。接下來,我們從定量的角度來識別資料物件屬性。

數值屬性(numeric attribute):從名字就可以看出來,它是乙個準確的,可度量的值。數值屬性要麼它是區間標度的,要麼它是比率標度的。

區間標度屬性用相等的單位度量。

比率標度屬性是具有固定零點的數值屬性。例如人的年齡,攝氏度的絕對零點。這樣的話我們就可以計算值的比率。

機器學習領域一般將資料劃分為離散的,或者連續的

離散屬性:一般等同於標稱屬性或者序數屬性。

連續屬性:一般等同於數值屬性。

好了,我們已經對資料有了一定的認識。接下來,我們將從統計的角度來描述資料,通過統計度量,我們可以在資料預處理時填補缺失值,光滑雜訊,識別離群點等。

機器學習 資料預處理

均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...