百面機器學習第一章特徵工程

2、類別型特徵

3、高維組合特徵的處理

4、組合特徵

5、文字表示模型

6、word2vec

7、影象資料不足時的處理方法

為了消除資料特徵之間的量綱影響，對特徵進行歸一化處理，使不同指標之間具有可比性。

常用的歸一化方法：

線性函式歸一化，xno

rm=x

−xmi

nxma

x−xm

in

x_=\frac}-x_}

xnorm

=xma

x−x

min

x−xm

in

零均值歸一化，將原始資料對映到均值為0，標準差為1的分布上，z=x

−μ

σz=\frac

z=σx−μ

特徵歸一化後，在進行梯度下降過程中，可以更快找到最優解。

適用模型：線性回歸，邏輯回歸，svm，神經網路等

不適用模型：決策樹，歸一化不改變樣本在特徵 x

xx 上的資訊增益

為了提高複雜關係的擬合能力，在特徵工程中經常會把一階離散特徵兩兩組合，構成高階特徵。特徵組合導致模型要學習的引數規模巨大，一般通過矩陣分解來降低複雜度。

常用的矩陣分解方法：

通過構造決策樹來進行特徵選擇

詞袋模型和n-gram模型

利用tf-idf來計算每個詞的重要性，隨機取樣

主題模型

詞嵌入與深度學習模型

word2vec包括兩種模型，cbow和skip-gram，cbow是利用上下文出現的詞來**當前詞的生成概率；而skip-gram則是利用當前詞來**上下文各詞出現的概率。

cbow輸入是乙個v×n

v\times n

v×n 的矩陣，每一行代表乙個詞向量，v

vv 是上下文長度，乘以乙個 n×k

n\times k

n×k 大小的稀疏矩陣後按行求和，得到乙個 k

kk 維的向量，再乘以乙個 k×n

k\times n

k×n的矩陣，得到乙個 n

nn 維的向量，每一維代表**結果為該維對應詞的概率，再由softmax啟用函式輸出，p(y

=wn∣

x)=e

xn∑k

=1ne

xk

p(y=w_n|x)=\frac}^e^}

p(y=wn

∣x)

=∑k=

1ne

xke

xn

這裡要求k×n

k\times n

k×n和n×k

n\times k

n×k兩個引數矩陣。

skip-gram過程剛好相反。

主題模型和詞嵌入兩類方法最大的不同其實在於模型本身，主題模型是一種基於概率圖模型的生成式模型，其似然函式可以寫成若干條件概率連乘的形式，其中包括需要推測的隱含變數(即主題)，而詞嵌入模型一般表達為神經網路的形式，似然函式定義在網路的輸出智商，需要通過學習網路的權重以得到單詞的稠密向量表示。

資料不足導致模型學習不充分，欠擬合，泛化能力弱，可以從兩個方面來優化，一是基於模型的方法，主要是採用降低過擬合風險的措施，包括簡化模型，增加約束項以縮小假設孔家，整合學習，dropout超引數等；二是基於資料的方法，主要通過資料擴充，在保持特定資訊的前提下，對原始資料進行適當變換以達到擴充資料集的效果。

《百面機器學習》第一章特徵工程筆記（簡）

對數值型別的特徵做歸一化，最終將特徵的取值都統一到大致相等的數值區間內。優點可將所有特徵消除量綱。避免結果傾向於數值差別較大的特徵。常見的方法有線性函式歸一化零均值歸一化適用於邏輯回歸 svm 神經網路不適用於決策樹主要指的非數值型的離散特徵，如性別男女常見的處理方法序號編碼...

第一章特徵工程

前言一什麼是特徵工程？二為什麼執行特徵工程？三特徵提取三特徵選擇總結顧名思義，特徵工程就是從資料中對特徵進行工程化。特徵工程就是將原資料轉換為能更好的代表模型潛在問題的特徵的過程，從而提高了對未知資料的模型準確性。在機器學習中，任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵...

機器學習第一章

q 什麼是機器學習機器學習不同於以往的計算機程式設計，致力於研究如何通過計算機手段，利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法，讓它自己學習，找到其種的規律。在面對新情況的時候就能應用已產生的模型，提供相應的判斷。機器學習的本質任...

百面機器學習第一章 特徵工程

《百面機器學習》第一章 特徵工程 筆記（簡）

第一章 特徵工程

機器學習第一章

相關推薦

百面機器學習第一章特徵工程

《百面機器學習》第一章特徵工程筆記（簡）

第一章特徵工程