目錄
第一章 特徵工程
1.1特徵歸一化
1.2高維組合特徵的處理
特徵工程:對原始資料進行一系列工程處理,將其提煉為特徵。作為輸入給演算法和模型使用。本質上,特徵工程是乙個表示和展現資料的過程。特徵工程旨在去除原始資料中的雜誌。結構化資料:類似於資料庫中的乙個表,每乙個行列都有清晰的定義,包含數值型與類別型兩種型別。
特徵歸一化:是為了消除資料特徵之間的量綱影響,使得不同的指標之間可以具有對比性
特徵歸一化針對的是數值型別的特徵。
第乙個是線性函式的歸一化。它對原始資料進行線性變換使得結果過對映到[0,1],實現對原始資料的等比縮放。
第二個是零均值的歸一化。它將會把原始資料對映到值為0、標準差為1的分布上。
類別型特徵:指在有限選項內取值的特徵,類別型特徵原始輸入通常是字串形式,除了決策樹等少數模型能直接處理字串的輸入。對於邏輯回歸,支援向量機模型來說,類別型特徵需要轉變成數值型特徵才可以有效。
對於類別型資料的處理,主要有三種方式:序號編碼通常用於處理類別之間具有大小關係的資料。比如成績高、中、低劃分為0 、1、2。獨熱編碼通常用於處理不具有大小關係的特徵。如血型a、ab、o、b。獨熱編碼將其變成四維稀疏向量。
此類編碼有兩方面要注意,第乙個是稀疏向量節省空間。第二個是配合特徵選擇來降低維度。
高緯度帶來的負面影響是在k近鄰演算法中點與點之間的舉例判斷難以得到有效的衡量。其次是邏輯回歸模型中,引數的數量會隨著維度的增高而變多,容易引起過擬合的問題。最後是只有部分維度是對分類與**是有幫助的。所以需要用到降維處理。
二進位制編碼主要是分為兩步,先用序號編碼對每乙個類別賦予乙個類別的id,然後將類別id對應的二進位製作為結果。本質上是利用二進位制對id進行雜湊對映,最終得到0/1特徵向量,且維數少於獨熱編碼節省了儲存空間。
組合特徵:為了提高複雜關係的擬合能力,在特徵工程經常把一階離散特徵兩兩組合,構成高階組合特徵。
文字表示模型
文字是種非結構化的資料
詞袋模型:將每一篇文章看成一袋子詞語,並且忽視每個詞出現的順序,具體來說,是將整段文字以詞為單位切分開,然後將每一篇文章表示成為乙個長向量, 向量中的每乙個維度代表乙個單詞。而該維對應的權重則反映了這個詞在原文章中的重要程度。
常用tfidf來計算權重
此外還有個n-gram模型,將連續出現的n個詞組成的片語作為乙個單獨的特徵放到向量表示中去。構成n-gram中。此外,乙個詞可能會有多種詞形變化,實際應用中還涉及到詞幹的抽取。
主題模型
用於從文字庫中發現有代表性的主題,(得到每個主題上面詞的分布特性)並且能夠計算每篇文章的主題分布。
詞嵌入與深度學習模型
詞嵌入是一類將詞向量化模型的統稱,核心思想是將每個詞都對映到低維空間(通常k = 50-300維度)上的乙個稠密向量,k維空間的每一維也可以看做乙個隱含的主題,只不過不像主題模型中的主題那樣直觀。
百面機器學習一
特徵歸一化常見的有兩種,一種是線性函式歸一化,一種是零均值歸一化。線性函式歸一化 min max scaling 對原始資料進行線性變換,將結果對映到 0,1 的範圍,歸一化公式如下 x no rm x xmi nxma x xm in x frac x xnorm xma x x min x xm...
《百面機器學習》模型評估
沒有測量,就沒有科學。門捷列夫 在模型評估過程中,分類問題 排序問題 回歸問題往往需要使用不同的指標進行評估。在諸多的評估指標中,大部分指標只能片面地反映模型的一部分效能。如果不能合理地運用評估指標,不僅不能發現模型本身的問題,而且會得出錯誤的結論。準確率 accuracy 精確率 precisio...
百面機器學習筆記 4
roc曲線 question 如何計算auc?answer 首先,auc是指roc曲線下的面積大小,該值能夠量化地反映基於roc曲線衡量出的模型效能。計算auc值只需要沿著roc橫軸做積分就可以了。由於roc曲線一般都處於y x這條直線的上方 如果不是的話,只要把模型 的 概率反轉成1 p就可以得到...