伽瑪散度邏輯回歸的思想主要是在資料集存在雜訊標籤的框架下產生的,傳統的用機器學習中的邏輯回歸來處理雜訊標籤的問題包括mislabel邏輯回歸以及α散度邏輯回歸等等,這些演算法都是估計兩個雜訊概率:p(y=1 | y0=0)和p(y=0 | y0=1),但是對這兩個概率建模效果對於提公升模型的泛化能力不太明顯,因此通過引入伽瑪散度來直接對目標概率p(y=1 | x=x)建模
涉及的推導這裡就不詳細說明,總共包括四大部分。
第一部分是對混合標籤情況下的目標函式進行推導;第二部分是證明在雜訊標籤情況下引數估計不會受到雜訊比例影響,從而說明建模的穩健性;
第三部分是估計的引數的漸進正態性;
第四部分是雜訊標籤的識別,包括影響函式和與傳統演算法的對比。
演算法整體設計流程不詳細說明
總體的acc相對於一般的邏輯回歸和mislabel邏輯回歸提公升了很多,但是同樣有在雜訊比例擴大到30%、40%時acc顯著下降的情況,自己的改進應該會使得這個問題被顯著消除