1.預處理:理解資料及資料特徵(很重要)
2.異常樣本資料:
3.取樣:
資料不均衡問題:
1.詞袋法:統計詞頻
2.tf-idf:tf詞頻,idf逆文件頻率:表示詞在各個文件**現的概率
3.hashtf-idf:不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf的形式來解決該問題。特點:執行速度快,但是無法獲取高頻詞,有可能存在單詞碰撞問題 (hash值一樣)
4.預設值填充
5.啞編碼(onehotencoder)
6.二值化(binarizer):對於定量的資料(特徵取值連續)根據給定的閾值,將其進 行轉換,如果大於閾值,那麼賦值為1;否則賦值為0
7.標準化:基於特徵屬性的資料(也就是特徵矩陣的列),獲取均值和方差,然後將 特徵值轉換至服從標準正態分佈。
8.區間縮放法(歸一化):是指按照資料(特徵屬性,也就是列)的取值範圍特性對資料進行縮 放操作,將資料縮放到給定區間上。
9.正則化:和標準化不同,正則化是基於矩陣的行進行資料處理,其目的是將矩陣 的行均轉換為「單位向量」
10.降維:減小計算量,縮短訓練時間。lda\pca。pca是為了讓對映後的樣本具有更大的發散性,pca是無監督的學習演算法,lda是為了讓對映後的樣本有最好的分類效能,lda是有監督學習演算法。
標準化的目的是為了降低不同特徵的不同範圍的取值對於模型訓練的影響;比如對於同 乙個特徵,不同的樣本的取值可能會相差的非常大,那麼這個時候一些異常小或者異常 大的資料可能會誤導模型的正確率;另外如果資料在不同特徵上的取值範圍相差很大, 那麼也有可能導致最終訓練出來的模型偏向於取值範圍大的特徵,特別是在使用梯度下 降求解的演算法中;通過改變資料的分布特徵,具有以下兩個好處:1. 提高迭代求解的收 斂速度;2. 提高迭代求解的精度。
歸一化對於不同特徵維度的伸縮變換的主要目的是為了使得不同維度度量之間特徵具有可比性,同時 不改變原始資料的分布(相同特性的特徵轉換後,還是具有相同特性)(不改變的意思是:多個特徵之間 的關係不改變)。和標準化一樣,也屬於一種無量綱化的操作方式。
正則化則是通過範數規則來約束特徵屬性,通過正則化我們可以降低資料訓練處來的模型的過擬合可 能,和之前在機器學習中所講述的l1、l2正則的效果一樣。在進行正則化操作的過程中,不會改變量 據的分布情況,但是會改變資料特徵之間的相關特性。
如果面試有人問標準化和歸一化的區別:標準化會改變資料的分布情況,歸一化不會,標準化的主要作用是提高迭代速度,降低不同維度之間影響權重不一致的問題。
機器學習 資料清洗和特徵選擇
第二部分 特徵提取 1.概念 莊家 坐莊的人,負責收發金錢 賠率 表示發生的話可以獲得本金的倍數,例如小明下注10兩,事件a賠率為3,則發生事件a後,小明可獲得30兩,淨賺20兩 事件發生概率與賠率的關係 p y 1,p為概率,y為賠率 盈利率 下注金額 賠付期望 下注金額 2.賠率分析 假定事件有...
機器學習之資料清洗和特徵選擇
賠率 公平賠率 莊家期望收益為零,沒有利潤 實際賠率 莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數 pandas 用於資料讀取,優勢比numpy強等 庫 fuzzywuzzy 用於資料清洗 pca理論依據 pca降維思想 尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位...
機器學習中的資料清洗和特徵處理綜述
典型的監督學習過程 確定特徵資料 在資料 不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。特徵處理過程 1,初步處理 樣本取樣 當模型不能使用全部的資...