由於大規模資料集求最優解,計算量非常大,對於這樣的問題,如果能夠將資料集分配給多台計算機,讓每台計算機處理資料集的乙個子集,然後將計算結果彙總再求和,這樣的方法叫做對映簡化。
如果任何學習演算法能夠表達為,對訓練集的函式求和,那麼就能將這個任務分配給多台 計算機(或者同一臺計算機的不同cpu核心),以達到加速處理的目的。
1、文字偵測——將上的文字與其他環境物件分離開來
2、字元切分——將文字分割成乙個個單一的字元
3、字元分類——確定每乙個字元是什麼
像這樣的乙個系統,稱之為機器學習流水線。在流水線中會有多個不同的模組,比如在本例中,我們有文字檢測、字元分割和字母識別。其中每個模組都可能是乙個機器學習元件或者只是乙個接乙個連在一起的一系列資料。最終得出希望的結果就是最終識別到的中的文字資訊。如果要設計乙個機器學習系統,最重要的就是要怎樣組織好這個流水線,如何將這個問題分成一系列不同的模組,流水線中的每乙個模組都會影響到最終的演算法的表現 。
以行人檢測為例,首先要做的是用許多固定尺寸的來訓練能識別行人的模型,然後用之前訓練識別行人的模型時所採用的尺寸在上進行依次滑動,然後判斷是否有行人,直到整張完全檢測完。每次滑動的大小被稱為步長,通常使用4個畫素作為步長。然後再使用大一點的方框依次檢查,取回的影象同樣要壓縮到原來的大小。
滑動窗**術也被用於文字識別,首先訓練模型能夠區分字元與非字元,然後運用滑動窗**術識別字元,字元的分割也同樣是需要使用正負樣本訓練分類器,然後用滑動窗分類器將連續的文字區域劃分成單個字母。
想要獲得乙個比較高效的機器學習系統,最可靠的辦法就是選擇乙個低偏差的學習演算法,然後用非常大的訓練集來訓練它。為了解決大的訓練集的問題,可以考慮人工資料合成。一般分為兩種,一種是全部自己創造新的訓練集;一種是用已有的一小部分帶標籤的訓練集來創造訓練集。
以文字為例,可以在網上找到不同字型的文字,再為其添上不同的背景,使用某種模糊處理,這就就可以得到和真實樣本類似的帶標籤的訓練集。這是第一種。第二種是可以對已有的文字進行變形扭曲,得到新的帶標籤的樣本。當然這些變形是在實際的應用中會用的到的,不然就沒有意義了。
1、 人工資料合成
2、 手動收集、標記資料
3、 眾包
當開發機器學習系統的流水線時,上限分析通常能提供一種很有用的導向,告訴我們流水線中的哪個部分最值得花時間改善。流程圖中每一部分的輸出都是下一部分的輸入,上線分析中,我們選取一部分,手工提供100%正確的輸出結果,任何看看整體效果提公升了多少。
以上述的文字識別為例,如果令文字偵測部分輸出的結果為100%正確,發現系統的總體效果從72%提高到89%,這意味著我們很可能會投入精力來提高文字偵測部分。如果令字元切分輸出的結果100%正確,發現系統的總體結果只提公升了1%,這意味著字元切分部分已經足夠好了。如果令字元分類輸出的結果100%正確,系統的總體效果有提公升了10%,這意味著這塊也應該投入更多的時間和精力。
斯坦福機器學習筆記五
有時候發現訓練出來的模型誤差很大,會有很多解決辦法。例如 增加更多的訓練樣本,減少特徵數目,增加特徵數目,增加多項式特徵,減小或增大正則化引數 的值 但是這些嘗試往往會浪費很多時間,所有這裡提出了一種機器學習診斷法。1 資料的分配 將資料分為三部分,訓練集 60 交叉驗證集 20 和測試集 20 利...
斯坦福機器學習筆記十
這裡以電影推薦的栗子來說明什麼是推薦系統。nu 代表使用者的數量 nm 代表電影的數量 r i,j 如果使用者給電影評過分,則r i,j 1 y ij 代表使用者i給電影j的評分 mj 代表使用者j評過分的電影總數 j 代表使用者j的引數向量 x i 代表電影i的特徵向量 如圖所示,推薦系統能夠幫我...
斯坦福機器學習筆記 1
邏輯回歸與線性回歸 線性回歸主要應用於連續性的模型,邏輯回歸主要用於解決分類問題,的結果通常是非0即1。今天的課程主要 的是如何預防過擬合。主要有兩種方法 1 減少特徵數目 通過在cost function後加一些額外的term,來減少某些個別特徵的權重 2 regularization 正則化 減...