突然覺得標題的day計算方式有問題…
對於效能評測,一共有三個指標:準確性和召回率和精確率。
書上用的是有點像…卡諾圖…的感覺來列的公式。【數電後遺症。
實際是1類
實際是2類
分類結果為1類
1類被分類為1類
(分類正確)
2類被分類為1類
(棄真錯誤)
分類結果為2類
1類被分類為2類
(納偽錯誤)
2類被分類為2類
(分類正確)
啊有點繞啊…但是還是挺容易理解,納偽和求真就是剛剛概率論學習的內容。
我自己的理解就是:
準確性:分類正確的樣本數量/參與分類的樣本數量。
精確率:某一類正確分類的樣本數量/某一類參與分類的樣本數量。
召回率書上的公式是「1類被分類為1類(分類正確)」/「1類被分類為1類(分類正確)+1類被分類為2類(納偽錯誤)」,看起來似乎就是
召回率:某一類正確被分為某一類的樣本數量/實際上是某一類的樣本數量【和召回racall這個詞的意思的理解不通。
然後綜合考量精確率和召回率,就求了二者的調和平均數。稱為f1指標。
調和平均數的特徵是更易受極大極小值的影響,但是書上說選擇的原因是,當兩個值接近的時候,分會高一些。唔…
得到乙個小結論:在選擇線性分類器的時候,選擇模型上:logisticregression計算時間長模型效能略高,sgdclassifier計算時間短模型效能略低,在資料規模10w量級以上,用後者更好。
學習支援向量機模型的速度比昨天快多了呀!
這個裡面提到了乙個能夠處理手寫體數字的載入器。好6哇。
然後感覺體會到流程了:
讀取**→分割**→訓練集標準化→用模型的fit來訓練→**測試集的y→用模型的score計算準確性→進一步分析結果。
裡面如分割模組:train_test_split,標準化模組standardscarler,分析結果的classification_report模組都是套路一樣的存在哈哈哈。
然後提到了對於召回率、準確率和f1指標最先適用於二分類任務。唔…不知道為啥沒有精確率。
對於多分類任務(n),就把他們分成n個二分類任務。
然後支援向量機模型的特點就是能夠在海量、高維資料中篩選最有效的少量訓練樣本,但是相應的,會付出更多的cpu資源和計算時間(並成為計算代價)。
機器學習基礎DAY3
方式 1.特徵選擇 2.主成分分析 1.特徵選擇 1 原因 冗餘 部分特徵的相關度高,容易消耗計算效能 雜訊 部分特徵對 結果有負影響 2 定義 特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後可以改變值 也不改變值,但是選擇後的特徵維數肯定比選擇前小,畢竟我們...
Python學習之路 Day3
換課程期數了,不同老師教 開發人員在程式中自定義的一些符號和名稱。識別符號是自己定義的,如變數名 函式名等 組成 由26個英文本母大小寫,數字 0 9 符號 1.識別符號中可以包含字母 數字 但是不能使用數字開頭 例如 name1 name 1 name1 1name 不行 2.python中不能使...
python學習總結day3
01if判斷語句基本語法 格式如下 if 要判斷條件 條件成立時,要做的事情 注意 縮排為乙個tab鍵或者4個空格,在python開發中,tab和空格不要混用,記住if判斷條件後面要加上 02比較 關係 運算子 等於 不等於 大於 小於 小於等於 大於等於 注意 if語句以及縮排部分是乙個完整的 塊...