gan網路評價指標主要有兩種,is以及fid
is(inception score)
顧名思義:基於inception網路的score計算方法。
inception網路是分類器,基於imagenet資料庫進行訓練,該資料庫共有1.2m個rgb,分為1000類。inception網路作為經典網路,在很多框架中都有整合,直接拿來用即可。
參考:評價生成模型,主要兩方面效能:1、生成是否清晰2、生成的是否多樣。是否清晰說明生成模型表現是否良好;是否多樣檢測生成模型是否只能生成有限的幾種清晰,陷入了所謂的mode collapse,這樣的模型也不是好的模型。
is指標是這樣進行檢測的:
1、清晰度:將生成的x輸入到inception v3網路中,將輸出的1000維向量y(即屬於各類的概率)。假設對於乙個清洗的,它屬於某一類的概率應該非常大,而屬於其他類的概率非常小(該假設本身存在問題,清晰度和可分類度並不強相關,有可能有些很清晰,但是具體屬於哪個類卻是模稜兩可的)。用專業術語說, [公式] 的熵應該很小(熵代表混亂度,均勻分布的混亂度最大,熵最大。也就是說,輸出的概率分布函式圖越尖銳。
2、多樣性:多樣性:如果乙個模型能生成足夠多樣的,那麼它生成的在各個類別中的分布應該是平均的,假設生成了 10000 張,那麼最理想的情況是,1000類中每類生成了10張。轉換成術語,就是生成在所有類別概率的邊緣分布p(y)熵很大(均勻分布)。具體計算時,可以先用生成器生成 n 張,然後計算經驗分布。但是,如果各類中的10個,都是一模一樣的,仍然是 mode collapse。inception score 無法檢測這種情況
因此is的公式可以寫為:
本質上就是分別計算輸入x的概率分布以及所有的邊緣分布,之後計算kl散度。
綜合起來,只要p(y|x)和 p(y)的距離足夠大,就能證明這個生成模型足夠好。因為前者是乙個很尖銳的分布,後者是乙個均勻分布,這倆距離本就應該很大。
具體**可參考:sbarratt/inception-score-pytorch
缺陷:計算 is 時只考慮了生成樣本,沒有考慮真實資料,即 is 無法反映真實資料和樣本之間的距離,is 判斷資料真實性的依據,源於 inception v3 的訓練集: imagenet,在 inception v3 的「世界觀」下,凡是不像 imagenet 的資料,都是不真實的,都不能保證輸出乙個 sharp 的 predition distribution。
fidfid計算的是特徵層面的距離
本質上使用的是真實與生成提取特徵向量之後之間的均值,協方差的距離評價。當生成和真實特徵越相近時,均值之差的平方越小,協方差也越小,則之和(fid)也越小。
fid指標只是使用inceptionv3作為特徵提取器,而不依賴的具體類別,也不必擔心每個類別內部只產生一模一樣的導致is中多樣性判別失效,無法**mode collapse的問題。
綜上所述,對比 is,fid 有如下優點:
生成模型的訓練集和 inception v3 的訓練集可以不同。
計算 fid 時同時用到了生成的資料和真實資料,比起 is 來更靈活。可以理解成,is 判斷真實性與否,是把生成資料和 imagenet 資料做比較,而 fid 是把生成資料和訓練資料做比較,因此更 reasonable。
以優化 fid 為目標,不會產生對抗樣本。因為優化的是 lantent space feature,不是最終的輸出,不會導致最終的生成失真。
fid缺陷
fid 只是某一層的特徵的分布,是否足以衡量真實資料分布與生成資料分布的距離?同時,提出 fid 公式計算的是多元正態分佈的距離,顯然神經網路提取的特徵並不是多元正態分佈。
針對同乙個生成模型,不同框架下預訓練的 inception v3 算出的 fid 差別是否可以忽略?
fid 無法反映生成模型過擬合的情況,如果某個生成模型只是簡單拷貝訓練資料,fid 會非常小,認為這是乙個完美的生成模型,因此,使用 fid 時同時也要通過別的手段證明生成模型沒有過擬合。
kid
kernel inception distance (kid)。與fid類似,kid[1]通過計算inception表徵之間最大均值差異的平方來度量兩組樣本之間的差異。此外,與所說的依賴經驗偏差的fid不同,kid有乙個三次核[1]的無偏估計值,它更一致地匹配人類的感知。
Python 線性回歸分析以及評價指標
利用 diabetes資料集來學習線性回歸 diabetes 是乙個關於糖尿病的資料集,該資料集包括442個病人的生理資料及一年以後的病情發展情況。資料集中的特徵值總共10項,如下 年齡 性別 體質指數 血壓 s1,s2,s3,s4,s4,s6 六種血清的化驗資料 但請注意,以上的資料是經過特殊處理...
模型評價指標
機器學習模型中常見的是分類問題,分類模型的評價指標主要有 1 精確率 2 召回率 3 f值 4 auc值 roc曲線 分類問題可劃分成二分類和多分類問題,其中二分類最為常見,多分類問題大都也是轉化成二分類問題求解,因此本文主要基於二分類模型進行模型評價指標的分析。1 給定標記好的模型訓練資料,經分類...
評價指標總結
我們需要通過評價指標來判斷模型的好壞 1 分類準確度 即 成功的在總數中的佔比 2 利用混淆矩陣 fn false negative,被判定為負樣本,但事實上是正樣本。fp false positive,被判定為正樣本,但事實上是負樣本。tn true negative,被判定為負樣本,事實上也是負...