吳恩達 機器學習 11 文字識別

2021-08-28 19:21:21 字數 808 閱讀 4195

problem description and pipeline

photo ocr表示**光學字元識別,主要解決的問題就是讓計算器識別**中的文字

主要步驟

sliding windows

由於行人的形狀大小相似,以行人檢測為例子來說明滑動窗

在中選取一小塊,使用訓練好的分類器進行檢測,下面是以8236為例,然後滑動視窗繼續進行檢測,滑動距離稱為步長

然後選取更大的塊,壓縮到8236進行檢測

對於文字檢測後,會得到左下圖,白色的亮度表示概率,然後使用展開器,將白色的笑點擴充套件為一塊

字元分割

getting lots of data and artificial data

採集資料時,乙個方法是採集同一字元的不同字型,然後放在不同的背景下,這就可以生成大量的樣本資料

另乙個方法就是選取真實的樣本,然後對影象進行人扭曲或變形

ceiling analysis: what part of the pipeline to work on next

上限分析:當團隊在進行開發機器學習系統是,可以提供很有用的導向,告訴你哪個部分最值得去花費時間

上限分析的主要思想:關注第乙個模組,認為的提供正確的文字檢測的結果,然後繼續執行後面的模組,觀察系統的準確率,這樣就可以知道每乙個模組的改善,對於整體的系統有多大的提公升

吳恩達機器學習筆記

為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...

吳恩達機器學習感悟

吳恩達機器學習,斯坦福2014筆記 由8.2 神經元和大腦想到的 神經重連實驗,比如眼睛連到聽覺皮層,則聽覺皮層學會了看 眼睛連到觸覺皮層,則觸覺皮層學會了看 舌頭上加攝像頭關聯的電極陣列,則負責舌頭感知的皮層學會了看。這寫neuron re wiring實驗,給出的結論是大腦各區使用的是同一種演算...

吳恩達機器學習筆記

sigmoid啟用函式 0,1 x 0,y 0.5 tanh啟用函式 1,1 x 0,y 0 relu啟用函式 x 0,y 0 x 0,y x sigmoid啟用函式 除了輸出層是乙個二分類問題基本不會用它。tanh啟用函式 tanh是非常優秀的,幾乎適合所有場合。relu啟用函式 最常用的預設函式...