賠率:
公平賠率:莊家期望收益為零, 沒有利潤;
實際賠率:莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數
pandas:用於資料讀取,優勢比numpy強等;
庫:fuzzywuzzy 用於資料清洗
pca理論依據:
pca降維思想:尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位於直線l上的點,計算m個投影點方差,認為方差最大的直線方向是主方向;
pca降維後的樣本方差:均值中心化後,目標函式:j(u) =ut a t a u,使該值最大化;投影之後方差最大;
pca多項式特徵:對於不同特徵,可以引用多次特徵,特徵階數越高,會產生過擬合等現象:資料會帶來雜訊,雜訊不可避免,如果階數過高,學到的特徵,會學到一些雜訊,建立的模型不一定會最好;
one-hot編碼:主要是對特徵進行編碼,特徵數進行膨脹,例如,乙個特徵有三種取值,會產生三個特徵;決策樹和隨機森林不需要進行編碼;
機器學習 資料清洗和特徵選擇
第二部分 特徵提取 1.概念 莊家 坐莊的人,負責收發金錢 賠率 表示發生的話可以獲得本金的倍數,例如小明下注10兩,事件a賠率為3,則發生事件a後,小明可獲得30兩,淨賺20兩 事件發生概率與賠率的關係 p y 1,p為概率,y為賠率 盈利率 下注金額 賠付期望 下注金額 2.賠率分析 假定事件有...
機器學習中資料清洗和特徵選擇總結
1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...
機器學習中的資料清洗和特徵處理綜述
典型的監督學習過程 確定特徵資料 在資料 不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。特徵處理過程 1,初步處理 樣本取樣 當模型不能使用全部的資...