演算法常見概念筆記

2021-09-11 19:51:20 字數 1335 閱讀 8801

1.歸一化,標準化

標準化:xa = (x - μ) / σ 分數減去平均數然後除以標準差

使用場景:

2.方差、標準差

3.交叉驗證

將訓練資料分成幾個部分,例如資料集a:[1,2,3,4,5,6]

為了減少過擬合現象,可以將資料分組進行訓練,驗證。例如對a

分為

ford1 :12

ford2 :34

ford3 :

56

進行交叉驗證過程:

train: ford1 + ford2  test: ford3

train: ford2 + ford3 test: ford1

train: ford1 + ford3 test: ford2

在sklearn中可以使用kfold

4.懲罰項 l1 l2正則化

例如線性擬合主要是求出w向量 使得wx盡可能接近樣本。但考慮一種情況 求出了兩個向量都能滿足條件:wa引數波動較大,wb引數波動小,更穩定。

那這個時候時候我們可以使用正則化,給損失函式增加懲罰項:

loss  = loss + s*w^2
s是懲罰項係數,上式是l2懲罰項 l1就是加上絕對值 |w|

5.準確率 精確率 召回率(recall)

常見的例子:

假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.

現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.

作為評估者的你需要來評估(evaluation)下他的工作

相關 正類

無關 負類

被檢索到

tp 正類判定為正類

fp 負類判定為正類

未被檢索到

fn 正類判定為負類

tn 負類判定為負類

現在需要找到所有的女生:

tp=20

fp=30

fn=0

tn=50

6.樣本不均衡

對於正負樣本不均衡,需將樣本均衡處理。一般分為下取樣(去除多的資料),上取樣填充。

下取樣資料量少,準確率低。

上取樣使用smote演算法

x_new = x + rand(0, 1) * (x_di - x)

x_di : x距離樣本集其他點的距離

演算法筆記 佇列概念

佇列 queue 時一種先進先出的資料結構 以食堂排隊打飯為例,每個人都從隊伍最後面排起,隊伍最前面的人打完飯出隊 佇列總是從隊尾加入元素,而從隊首移除元素,滿足先進先出的規則 注意!使用乙個隊首元素front來指向隊首元素的前乙個位置 使用乙個隊尾指標rear來指向隊尾元素 和棧類似,當使用陣列來...

機器學習常見基本概念筆記

監督學習和非監督學習 有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。比如分類和回歸。而無監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。如...

常見測試概念

靜態測試 不執行被測程式本身,僅通過分析 檢查源程式的語法 介面 過程來檢查程式的正確性。參考文件需求規格說明書 軟體設計說明書 源程式結構分析 流程圖等來找錯。動態測試 執行被測程式,檢查執行結果與預期的差異,分析並執行效率效能等。黑盒測試 不關心 從系統表現來測。具體有等價類劃分法,邊界值分析法...