百面機器學習第一章 特徵工程

2021-10-22 03:57:21 字數 1858 閱讀 3225

2、類別型特徵

3、高維組合特徵的處理

4、組合特徵

5、文字表示模型

6、word2vec

7、影象資料不足時的處理方法

為了消除資料特徵之間的量綱影響,對特徵進行歸一化處理,使不同指標之間具有可比性。

常用的歸一化方法:

線性函式歸一化,xno

rm=x

−xmi

nxma

x−xm

in

x_=\frac}-x_}

xnorm​

=xma

x​−x

min​

x−xm

in​​

零均值歸一化,將原始資料對映到均值為0,標準差為1的分布上,z=x

−μ

σz=\frac

z=σx−μ

​特徵歸一化後,在進行梯度下降過程中,可以更快找到最優解。

適用模型:線性回歸,邏輯回歸,svm,神經網路等

不適用模型:決策樹,歸一化不改變樣本在特徵 x

xx 上的資訊增益

為了提高複雜關係的擬合能力,在特徵工程中經常會把一階離散特徵兩兩組合,構成高階特徵。特徵組合導致模型要學習的引數規模巨大,一般通過矩陣分解來降低複雜度。

常用的矩陣分解方法:

通過構造決策樹來進行特徵選擇

詞袋模型和n-gram模型

利用tf-idf來計算每個詞的重要性,隨機取樣

主題模型

詞嵌入與深度學習模型

word2vec包括兩種模型,cbow和skip-gram,cbow是利用上下文出現的詞來**當前詞的生成概率;而skip-gram則是利用當前詞來**上下文各詞出現的概率。

cbow輸入是乙個v×n

v\times n

v×n 的矩陣,每一行代表乙個詞向量,v

vv 是上下文長度,乘以乙個 n×k

n\times k

n×k 大小的稀疏矩陣後按行求和,得到乙個 k

kk 維的向量,再乘以乙個 k×n

k\times n

k×n的矩陣,得到乙個 n

nn 維的向量,每一維代表**結果為該維對應詞的概率,再由softmax啟用函式輸出,p(y

=wn∣

x)=e

xn∑k

=1ne

xk

p(y=w_n|x)=\frac}^e^}

p(y=wn

​∣x)

=∑k=

1n​e

xk​e

xn​​

這裡要求k×n

k\times n

k×n和n×k

n\times k

n×k兩個引數矩陣。

skip-gram過程剛好相反。

主題模型和詞嵌入兩類方法最大的不同其實在於模型本身,主題模型是一種基於概率圖模型的生成式模型,其似然函式可以寫成若干條件概率連乘的形式,其中包括需要推測的隱含變數(即主題),而詞嵌入模型一般表達為神經網路的形式,似然函式定義在網路的輸出智商,需要通過學習網路的權重以得到單詞的稠密向量表示。

資料不足導致模型學習不充分,欠擬合,泛化能力弱,可以從兩個方面來優化,一是基於模型的方法,主要是採用降低過擬合風險的措施,包括簡化模型,增加約束項以縮小假設孔家,整合學習,dropout超引數等;二是基於資料的方法,主要通過資料擴充,在保持特定資訊的前提下,對原始資料進行適當變換以達到擴充資料集的效果。

《百面機器學習》第一章 特徵工程 筆記(簡)

對數值型別的特徵做歸一化,最終將特徵的取值都統一到大致相等的數值區間內。優點 可將所有特徵消除量綱。避免結果傾向於數值差別較大的特徵。常見的方法有 線性函式歸一化 零均值歸一化 適用於 邏輯回歸 svm 神經網路 不適用於 決策樹 主要指的非數值型的離散特徵,如性別 男 女 常見的處理方法 序號編碼...

第一章 特徵工程

前言 一 什麼是特徵工程?二 為什麼執行特徵工程?三 特徵提取 三 特徵選擇 總結顧名思義,特徵工程就是從資料中對特徵進行工程化。特徵工程就是將原資料轉換為能更好的代表 模型潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。在機器學習中,任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵...

機器學習第一章

q 什麼是機器學習 機器學習不同於以往的計算機程式設計,致力於研究如何通過計算機手段,利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法,讓它自己學習,找到其種的規律。在面對新情況的時候就能應用已產生的模型,提供相應的判斷。機器學習的本質任...