僅作為備忘用,語無倫次,請見諒!!!
一、資料處理前一定要做好資料清洗
採集的資料格式和label都有各種問題,直接匯入演算法中,程式會出錯,如果顯性的報錯還好辦,就怕隱性的錯誤,根本就不知道訓練的資料都不對。。。。反正loss也在下降。。。。很是坑啊!!!
二、python變數取名,在同乙個域內注意不要重複使用
例如:x,y,i,j,l,lable,這些常用變數不要重複使用。。。。導致輸出值莫名奇妙地是錯的。。。。。找了好久問題。。。
三、分類問題要遠比回歸問題好解決,盡量把問題轉化為分類
四、不要追求loss最低,因為很多時候是過擬合,要適當地val一下,如果過擬合了,再訓練下去,即使loss再低,應該也沒意義。模型煉丹經驗還在摸索中,不時更新
五、目標檢測專案不是所有的用mirror就會增強資料,我嘗試在文字檢測中用水平垂直mirror,可是發現loss比不用mirror增強還大。。。。個人推斷是文字檢測讓機器更多的是識別文字的存在,然而文字映象後還是文字嗎??檢測只是判斷是不是文字,映象的文字在test中是不會出現的,如果讓機器學習映象就會導致(上述為推斷。。。。靠譜結論待續)
錯誤備忘:
indexerror: too many indices for array
資料處理方法總結
讀取資料 data pd.read csv print data.head 10 處理資料 1.縮小資料,查詢資料篩選,query相當於sql語句,進行條件查詢 data data.query x 1.0 x 1.25 y 2.5 y 2.75 2.處理時間處理 time value pd.to d...
海量資料處理方法總結
適用範圍 第k大,中位數,不重複或重複的數字 基本原理及要點 因為元素範圍很大,不能利用直接定址表,所以通過多次劃分,逐步確定範圍,然後最後在乙個可以接受的範圍內進行。可以通過多次縮小,雙層只是乙個例子。擴充套件 問題例項 1 2.5億個整數中找出不重複的整數的個數,記憶體空間不足以容納這2.5億個...
海量資料處理分析總結
海量的資料處理問題,對其進行處理是一項艱鉅而複雜的任務。原因有以下幾個方面 一 資料量過大,資料中什麼情況都可能存在。如果說有10條資料,那麼大不了每條去逐一檢查,人為處理,如果有上百條資料,也可以考慮,如果資料上到千萬級別,甚至過億,那不是手工能解決的了,必須通過工具或者程式進行處理,尤其海量的資...