2、類別型特徵
3、高維組合特徵的處理
4、組合特徵
5、文字表示模型
6、word2vec
7、影象資料不足時的處理方法
為了消除資料特徵之間的量綱影響,對特徵進行歸一化處理,使不同指標之間具有可比性。常用的歸一化方法:
線性函式歸一化,xno
rm=x
−xmi
nxma
x−xm
in
x_=\frac}-x_}
xnorm
=xma
x−x
min
x−xm
in
零均值歸一化,將原始資料對映到均值為0,標準差為1的分布上,z=x
−μ
σz=\frac
z=σx−μ
特徵歸一化後,在進行梯度下降過程中,可以更快找到最優解。
適用模型:線性回歸,邏輯回歸,svm,神經網路等
不適用模型:決策樹,歸一化不改變樣本在特徵 x
xx 上的資訊增益
為了提高複雜關係的擬合能力,在特徵工程中經常會把一階離散特徵兩兩組合,構成高階特徵。特徵組合導致模型要學習的引數規模巨大,一般通過矩陣分解來降低複雜度。常用的矩陣分解方法:
通過構造決策樹來進行特徵選擇
詞袋模型和n-gram模型利用tf-idf來計算每個詞的重要性,隨機取樣
主題模型
詞嵌入與深度學習模型
word2vec包括兩種模型,cbow和skip-gram,cbow是利用上下文出現的詞來**當前詞的生成概率;而skip-gram則是利用當前詞來**上下文各詞出現的概率。cbow輸入是乙個v×n
v\times n
v×n 的矩陣,每一行代表乙個詞向量,v
vv 是上下文長度,乘以乙個 n×k
n\times k
n×k 大小的稀疏矩陣後按行求和,得到乙個 k
kk 維的向量,再乘以乙個 k×n
k\times n
k×n的矩陣,得到乙個 n
nn 維的向量,每一維代表**結果為該維對應詞的概率,再由softmax啟用函式輸出,p(y
=wn∣
x)=e
xn∑k
=1ne
xk
p(y=w_n|x)=\frac}^e^}
p(y=wn
∣x)
=∑k=
1ne
xke
xn
這裡要求k×n
k\times n
k×n和n×k
n\times k
n×k兩個引數矩陣。
skip-gram過程剛好相反。
主題模型和詞嵌入兩類方法最大的不同其實在於模型本身,主題模型是一種基於概率圖模型的生成式模型,其似然函式可以寫成若干條件概率連乘的形式,其中包括需要推測的隱含變數(即主題),而詞嵌入模型一般表達為神經網路的形式,似然函式定義在網路的輸出智商,需要通過學習網路的權重以得到單詞的稠密向量表示。
資料不足導致模型學習不充分,欠擬合,泛化能力弱,可以從兩個方面來優化,一是基於模型的方法,主要是採用降低過擬合風險的措施,包括簡化模型,增加約束項以縮小假設孔家,整合學習,dropout超引數等;二是基於資料的方法,主要通過資料擴充,在保持特定資訊的前提下,對原始資料進行適當變換以達到擴充資料集的效果。
《百面機器學習》第一章 特徵工程 筆記(簡)
對數值型別的特徵做歸一化,最終將特徵的取值都統一到大致相等的數值區間內。優點 可將所有特徵消除量綱。避免結果傾向於數值差別較大的特徵。常見的方法有 線性函式歸一化 零均值歸一化 適用於 邏輯回歸 svm 神經網路 不適用於 決策樹 主要指的非數值型的離散特徵,如性別 男 女 常見的處理方法 序號編碼...
第一章 特徵工程
前言 一 什麼是特徵工程?二 為什麼執行特徵工程?三 特徵提取 三 特徵選擇 總結顧名思義,特徵工程就是從資料中對特徵進行工程化。特徵工程就是將原資料轉換為能更好的代表 模型潛在問題的特徵的過程,從而提高了對未知資料的模型準確性。在機器學習中,任何建模技術想要獲得滿意的結果都需要良好的資料特徵。特徵...
機器學習第一章
q 什麼是機器學習 機器學習不同於以往的計算機程式設計,致力於研究如何通過計算機手段,利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法,讓它自己學習,找到其種的規律。在面對新情況的時候就能應用已產生的模型,提供相應的判斷。機器學習的本質任...