難例挖掘問題分析

2021-09-29 19:47:12 字數 634 閱讀 6026

看了很多的部落格,但還是沒有發現更好的難例挖掘問題的解釋。於是自己檢視原始碼,最後終於是知道了整個過程。寫個部落格記錄下。

首先說明一下,什麼是困難負樣本?說白了就是對分類器迷惑性大的樣本,這類樣本的實際標籤是負的,但是分類器往往**為正的。

在目標檢測中我們會事先標記好ground_truth,接下來在中隨機提取一系列sample,與ground_truth重疊率iou超過一定閾值的(比如0.5),大於則認為它是positive sample,否則為negative sample,(注意:這裡的positive sample中也會包含有負樣本(即,假陽),而這裡的negative sample組成的集合就是之後說的負樣本集合)。

考慮到實際負樣本數》正樣本數,我們為了避免network的**值少數服從多數而向負樣本靠攏,取正樣本數:負樣本數大約為1:3,顯而易見,用來訓練網路的負樣本為提取的負樣本的子集,那麼,我們當然選擇負樣本中容易被分錯類的困難負樣本來進行網路訓練囉。

然後使用positive sample這個樣本集合去訓練我們的網路,再用訓練好的網路去**negative sample,選擇其中得分最高的前k個negative sample,也就是k個hard negative sample。再將這k個加入到負樣本集中,重新訓練網路,迴圈往復,然後就會發現網路的分類效能更好了。

資料探勘之回歸分析

資料探勘之回歸分析綜述 史趙鋒 長春理工大學 資訊與計算科學系 摘要 資料探勘中回歸分析方法是建立複雜物件外特性模型的一類重要方法.此文對現有各種回歸方法進行了綜述.採用乙個統一的目標函式來解釋各種回歸方法,並以此為基礎,系統介紹了各種回歸分析方法 包括常見的主成分分析法和部分最小二乘法 pls 的...

資料探勘 客戶傾向分析

為了避免由客戶流失造成的損失,您必須找出那些有流失危險和最有價值的客戶,並相應開展保留和獲取客戶的活動。覺得現在的工作中我們可以利用現有的資料,並對這些資料進行分析來判斷哪些客戶有流失危險,哪些最有價值。clementine可以研究客戶流失中客戶特徵分析 流失 流失後果評估等問題。研究客戶流失的時候...

資料探勘之回歸分析

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一周的時間更新完成。需要 非常好的excel資料 word文件,歡迎發郵件給1982500361 qq.com,免費發放。這篇部落格對應 非常好的excel資料 裡的第6章節。資料 python操作 import panda...