機器學習之資料清洗和特徵選擇

賠率：

公平賠率：莊家期望收益為零，沒有利潤；

實際賠率：莊家在公平賠率基礎上乘以某小於1的係數，得到真實賠率，其中係數

pandas:用於資料讀取，優勢比numpy強等；

庫：fuzzywuzzy 用於資料清洗

pca理論依據：

pca降維思想：尋找樣本的主方向u,將m個樣本值投影到某直線l上，得到m個位於直線l上的點，計算m個投影點方差，認為方差最大的直線方向是主方向；

pca降維後的樣本方差：均值中心化後,目標函式：j(u) =ut a t a u，使該值最大化；投影之後方差最大；

pca多項式特徵：對於不同特徵，可以引用多次特徵，特徵階數越高，會產生過擬合等現象：資料會帶來雜訊，雜訊不可避免，如果階數過高，學到的特徵，會學到一些雜訊，建立的模型不一定會最好；

one-hot編碼：主要是對特徵進行編碼，特徵數進行膨脹，例如，乙個特徵有三種取值，會產生三個特徵；決策樹和隨機森林不需要進行編碼；

第二部分特徵提取 1.概念莊家坐莊的人，負責收發金錢賠率表示發生的話可以獲得本金的倍數，例如小明下注10兩，事件a賠率為3，則發生事件a後，小明可獲得30兩，淨賺20兩事件發生概率與賠率的關係 p y 1，p為概率，y為賠率盈利率下注金額賠付期望下注金額 2.賠率分析假定事件有...

1.預處理理解資料及資料特徵很重要 2.異常樣本資料 3.取樣資料不均衡問題 1.詞袋法統計詞頻 2.tf idf tf詞頻，idf逆文件頻率表示詞在各個文件現的概率 3.hashtf idf 不計算詞頻，而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...

典型的監督學習過程確定特徵資料在資料不固定，不明了的情況下，需要考慮為了達到目標，需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵，然後需要對使用資料的可用性進行評估，包括資料的獲取難度，資料的規模，資料的準確率，資料的覆蓋率等。特徵處理過程 1，初步處理樣本取樣當模型不能使用全部的資...