機器學習 資料清洗和特徵選擇

2021-10-23 01:15:57 字數 899 閱讀 9695

第二部分:特徵提取

1.概念

莊家:坐莊的人,負責收發金錢;

賠率:表示發生的話可以獲得本金的倍數,例如小明下注10兩,事件a賠率為3,則發生事件a後,小明可獲得30兩,淨賺20兩;

事件發生概率賠率的關係:p*y=1,p為概率,y為賠率

盈利率=(下注金額-賠付期望)/下注金額

2.賠率分析

假定事件有a、b兩種可能性,概率分別為p1=0.8、p2=0.2,假設一共有a元買a,b元買b,則賠付期望為:

注:因此如果賠率y=1/p,則莊家在期望上不賠不賺,此時賠率成為公平賠率,實際的賠率往往是公平賠率乘以乙個小於1的係數,得到真實賠率。

樣本中一定存在噪音,需要將資料集分成訓練集和測試集,如果模型在機器學習時將噪音當成真實樣本中的資料,即學習了噪音,則會造成過擬合,在訓練集表現好,而測試集表現不好。可以通過特徵選擇,使得模型在訓練時恰好獲得樣本的大體分布,而不是對於每乙個具體的樣本(噪音)都進行學習。

例如:汽車資料描述

對於上述給定的汽車資料及特徵,不能直接運用邏輯回歸模型,因為對於**、程度等特徵,如果特徵用0-3等數字代替,則邏輯回歸中的權重乘以特徵向量就失去了意義。例如,24歲的人和兩個12歲的人是不等價的。所以需要對特徵進行區間分類,然後用one-hot編碼,雖然增加了特徵維度,但是保證了邏輯回歸的可行性。也可以直接進行決策樹和隨機森林分類。

機器學習之資料清洗和特徵選擇

賠率 公平賠率 莊家期望收益為零,沒有利潤 實際賠率 莊家在公平賠率基礎上乘以某小於1的係數,得到真實賠率,其中係數 pandas 用於資料讀取,優勢比numpy強等 庫 fuzzywuzzy 用於資料清洗 pca理論依據 pca降維思想 尋找樣本的主方向u,將m個樣本值投影到某直線l上,得到m個位...

機器學習中資料清洗和特徵選擇總結

1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...

機器學習中的資料清洗和特徵處理綜述

典型的監督學習過程 確定特徵資料 在資料 不固定,不明了的情況下,需要考慮為了達到目標,需要哪些特徵值。首先可以借鑑一些業務經驗選擇一些特徵,然後需要對使用資料的可用性進行評估,包括資料的獲取難度,資料的規模,資料的準確率,資料的覆蓋率等。特徵處理過程 1,初步處理 樣本取樣 當模型不能使用全部的資...