機器學習之資料清洗和特徵選擇

2021-10-24 18:48:41 字數 475 閱讀 6774

賠率:

公平賠率:莊家期望收益為零, 沒有利潤;

實際賠率:莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數

pandas:用於資料讀取,優勢比numpy強等;

庫:fuzzywuzzy 用於資料清洗

pca理論依據:

pca降維思想:尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位於直線l上的點,計算m個投影點方差,認為方差最大的直線方向是主方向;

pca降維後的樣本方差:均值中心化後,目標函式:j(u) =ut a t a u,使該值最大化;投影之後方差最大;

pca多項式特徵:對於不同特徵,可以引用多次特徵,特徵階數越高,會產生過擬合等現象:資料會帶來雜訊,雜訊不可避免,如果階數過高,學到的特徵,會學到一些雜訊,建立的模型不一定會最好;

one-hot編碼:主要是對特徵進行編碼,特徵數進行膨脹,例如,乙個特徵有三種取值,會產生三個特徵;決策樹和隨機森林不需要進行編碼;

機器學習 資料清洗和特徵選擇

第二部分 特徵提取 1.概念 莊家 坐莊的人,負責收發金錢 賠率 表示發生的話可以獲得本金的倍數,例如小明下注10兩,事件a賠率為3,則發生事件a後,小明可獲得30兩,淨賺20兩 事件發生概率與賠率的關係 p y 1,p為概率,y為賠率 盈利率 下注金額 賠付期望 下注金額 2.賠率分析 假定事件有...

機器學習中資料清洗和特徵選擇總結

1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...

機器學習中的資料清洗和特徵處理綜述

典型的監督學習過程 確定特徵資料 在資料 不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。特徵處理過程 1,初步處理 樣本取樣 當模型不能使用全部的資...