1.歸一化,標準化
標準化:xa = (x - μ) / σ 分數減去平均數然後除以標準差
使用場景:
2.方差、標準差
3.交叉驗證
將訓練資料分成幾個部分,例如資料集a:[1,2,3,4,5,6]
為了減少過擬合現象,可以將資料分組進行訓練,驗證。例如對a
分為
ford1 :12
ford2 :34
ford3 :
56
進行交叉驗證過程:
train: ford1 + ford2 test: ford3
train: ford2 + ford3 test: ford1
train: ford1 + ford3 test: ford2
在sklearn中可以使用kfold
4.懲罰項 l1 l2正則化
例如線性擬合主要是求出w向量 使得wx盡可能接近樣本。但考慮一種情況 求出了兩個向量都能滿足條件:wa引數波動較大,wb引數波動小,更穩定。
那這個時候時候我們可以使用正則化,給損失函式增加懲罰項:
loss = loss + s*w^2
s是懲罰項係數,上式是l2懲罰項 l1就是加上絕對值 |w|
5.準確率 精確率 召回率(recall)
常見的例子:
假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作為評估者的你需要來評估(evaluation)下他的工作
相關 正類
無關 負類
被檢索到
tp 正類判定為正類
fp 負類判定為正類
未被檢索到
fn 正類判定為負類
tn 負類判定為負類
現在需要找到所有的女生:
tp=20
fp=30
fn=0
tn=50
6.樣本不均衡
對於正負樣本不均衡,需將樣本均衡處理。一般分為下取樣(去除多的資料),上取樣填充。
下取樣資料量少,準確率低。
上取樣使用smote演算法
x_new = x + rand(0, 1) * (x_di - x)x_di : x距離樣本集其他點的距離
演算法筆記 佇列概念
佇列 queue 時一種先進先出的資料結構 以食堂排隊打飯為例,每個人都從隊伍最後面排起,隊伍最前面的人打完飯出隊 佇列總是從隊尾加入元素,而從隊首移除元素,滿足先進先出的規則 注意!使用乙個隊首元素front來指向隊首元素的前乙個位置 使用乙個隊尾指標rear來指向隊尾元素 和棧類似,當使用陣列來...
機器學習常見基本概念筆記
監督學習和非監督學習 有監督學習的方法就是識別事物,識別的結果表現在給待識別資料加上了標籤。因此訓練樣本集必須由帶標籤的樣本組成。比如分類和回歸。而無監督學習方法只有要分析的資料集的本身,預先沒有什麼標籤。如果發現資料集呈現某種聚集性,則可按自然的聚集性分類,但不予以某種預先分類標籤對上號為目的。如...
常見測試概念
靜態測試 不執行被測程式本身,僅通過分析 檢查源程式的語法 介面 過程來檢查程式的正確性。參考文件需求規格說明書 軟體設計說明書 源程式結構分析 流程圖等來找錯。動態測試 執行被測程式,檢查執行結果與預期的差異,分析並執行效率效能等。黑盒測試 不關心 從系統表現來測。具體有等價類劃分法,邊界值分析法...