統計學與統計機器學習2 離散型資料的相關性

2021-10-10 22:25:55 字數 2276 閱讀 6502

在很多機器學習任務中,特徵並不總是連續值,而有可能是分類值。可將分類值轉化為數字表示,但是,即使轉化為數字表示後,此類資料也不能直接用在我們的分類器中。因為,分類器往往預設資料是連續的,並且是有序的。但是,單純的將分類值轉換為數字得到的資料並不是有序的,而是隨機分配的。

為解決上述問題,其中一種可能的解決辦法是採用獨熱編碼

獨熱編碼:one-hot encoding

這樣做的好處主要有:

使用獨熱編碼後,將離散特徵的取值擴充套件到了歐氏空間,離散特徵的某個取值就對應歐氏空間的某個點

將離散特徵通過one-hot編碼對映到歐氏空間,是因為,在回歸、分類、聚類等機器學習演算法中,特徵之間距離的計算或相似度的計算是非常重要的,而我們常用的距離或相似度的計算都是在歐氏空間的相似度計算,計算余弦相似性,基於歐氏空間

將離散型特徵使用one-hot編碼,確實會讓特徵之間的距離計算更加合理

比如,有乙個離散型特徵,代表工作型別,該離散型特徵,共有三個取值,不使用one-hot編碼,其表示分別是x1=(1),x2=(2),x3=(3)。兩個工作之間的距離是,d(x1,x2)=1,d(x2,x3)=1,d(x1,x3)=2。那麼x1和x3工作之間就越不相似嗎?顯然這樣的表示,計算出來的特徵的距離是不合理的。如果使用one-hot編碼,則得到x1=(1,0,0),x2=(0,1,0),x3=(0,0,1),那麼兩個工作之間的距離就都是sqrt(2),即每兩個工作之間的距離是一樣的,顯得更合理。

對離散型特徵進行one-hot編碼是為了讓距離的計算顯得更加合理將離散型特徵進行one-hot編碼,是為了讓距離更加合理,但如果特徵是離散的,並且不用one-hot編碼就可以很合理的計算出距離,那麼就沒必要進行one-hot編碼。

1.比如,該離散特徵共有1000個取值,我們分成兩組,分別是400和600,兩個小組之間的距離有合適的定義,組內的距離也有合適的定義,那麼就沒必要用one-hot編碼

離散特徵進行one-hot編碼後,編碼後的特徵,其實每一維度的特徵都可以看作是連續的特徵。就可以像對連續型特徵的歸一方法一樣,對每一維特徵進行歸一化。比如歸一化到[-1,1]或歸一化到均值為0,方差為1.

基於樹的方法是不需要進行特徵的歸一化,例如隨機森林,bagging,boosting等。基於引數的模型或基於距離的模型,都要進行特徵的歸一化。

svm中,原本線性不可分的特徵,經過編碼後到高維之後變得可分了;gbdt處理高維稀疏矩陣的時候效果並不好,即使是低維的稀疏矩陣也未必比svm好

樹模型不太需要one-hot編碼

對於決策樹來說,one-hot的本質是增加樹的深度

樹模型是在動態的過程中生成類似one-hot+feature crossing的機制

one-hot可以解決線性可分問題,但是比不上label encoding

one-hot降維後的缺點:降維前可以交叉的,降維後可能變得不能交叉

樹模型的訓練過程

從根節點到葉子節點整條路中有多少個節點相當於交叉了多少次,所以樹的模型是自行交叉

使用樹模型的葉子節點作為特徵集交叉結果可以減少不必要的特徵交叉的操作,或者減少維度和degree候選集 : degree → 8的特徵向量 樹 → 3個葉子節點

樹模型:ont-hot + 高degree笛卡爾積 + lasso 要消耗更少的計算量和計算資源

from sklearn import preprocessing

enc=preprocessing.onehotencoder(

)enc.fit([[

0,0,

3],[

1,1,

0],[

0,2,

1],[

1,0,

2]])

enc.transfrom([[

0,1,

3]])

.toarray(

)

結果:

array([[

1.,0

.,0.

,1.,

0.,0

.,0.

,0.,

1.]]

)

機器學習 統計學習

機器學習 一種讓計算機利用資料而非指令來進行各種工作的方法。計算機使用輸入給他的資料,利用人類賦予的演算法,得到某種模型的過程,其結果是使用該模型,未知資料資訊。在統計理論下的本質 它追求的是合理的假設空間 模型在數學上的適合場合 的選取和模型的泛化能力 模型在未知資料上的表現能力 統計學習 sta...

機器學習 統計學相關書籍

1.統計學完全教程 all of statistics 卡耐基梅隆 沃塞曼 2.第四版 概率論與數理統計 莫里斯。德格魯特 morris h.degroot 和馬克。舍維什 mark j.shervish 4.數值線性代數 特蕾菲森。勞埃德 和 戴維。鮑 適合本科生的教材 5.機器學習基礎之 資料分...

機器學習 統計學相關書籍

1.統計學完全教程 all of statistics 卡耐基梅隆 沃塞曼 2.第四版 概率論與數理統計 莫里斯。德格魯特 morris h.degroot 和馬克。舍維什 mark j.shervish 4.數值線性代數 特蕾菲森。勞埃德 和 戴維。鮑 適合本科生的教材 5.機器學習基礎之 資料分...