機器學習最有價值的部分是**建模。 這是在歷史資料上訓練模型並對新資料進行**的模型的開發。 關於**建模的首要問題是:如何獲得更好的結果?
這份備忘單包含了多年以來我的最佳應用程式,以及我對頂尖的機器學習從業人員和比賽獲勝者的學習所總結出的最佳建議。 有了本指南,您不僅會得到解脫和提公升的效能,甚至可以在**問題上獲得世界一流的結果。
此備忘單旨在為您提供一些想法,以提高您的機器學習問題的效能。 取得突破是乙個好主意。 當您遇到問題時,乙個好主意值得一噸**,本指南包含32種可以嘗試的想法! 找到乙個想法,取得進展,然後再來回去。
我將指南分為4個子主題:
1.使用資料提高效能。
2.使用演算法提高效能。
3.通過調參提高效能。
4.使用整合提高效能。
您越往下走,收益通常會越小。 例如,問題的新框架或更多資料通常比調整效能最佳演算法的引數給您更多收益。 雖然並非總是如此,但總的來說是這樣。
通過更改訓練資料和問題定義,您可以獲得巨大的提公升。 也許甚至是最大的提公升。
策略:在資料上建立新的不同觀點,以便將基本問題的結構最好地展示給學習演算法。
策略:機器學習與演算法有關。
策略:確定在效能基準之上執行並優於平均水平的演算法和資料表示形式。 對結果保持懷疑態度並設計實驗使結果難以愚弄你。
策略:
演算法調整可能是您花費大部分時間的地方。 這可能非常耗時。
您通常可以通過抽查快速發現一種或兩種效能良好的演算法。 從這些演算法中獲得最大收益可能需要幾天,幾周或幾個月的時間。
策略:充分利用效能良好的機器學習演算法。
策略:
您可以合併來自多個模型的**。 經過演算法調整後,這是需要改進的下乙個大領域。 實際上,通過組合來自多個足夠好的模型的**而不是來自多個高度調整(且脆弱)的模型的**,您通常可以獲得良好的效能。
策略:結合多個表現良好的模型的**。
策略:
結果:您應該擁有乙個或多個效能良好的模型,其效能要優於任何單個模型。
下一步:此時可以將乙個或多個合奏定型,並用於進行**或投入生產。
R的機器學習 模型效能提公升探索 神經網路
網上有很多介紹神經網路原理的文章,本質上機器學習就是乙個分類器 而神經網路是乙個模擬神經元學習的高階分類器,當然,神經網路也是個黑箱模型。本章使用神經網路對之前的iris資料集再次進行 在學習神經網路的時候,常常在回想人類的學習過程 這是個比較有思辨意義的過程。人類從出生的時候,往往就是一張白紙,可...
從零開始構建機器學習模型(六)模型提公升
我們以前文的mlp神經網路為例,通過三個方面進行模型的提公升 一.輸入效果提公升 前文說到的輸入規範化等等是通用的一些提公升方案,而對於具體的情況又有不同的應用 a 對於影象分類和識別問題,我們可以考慮對影象進行預處理 裁剪,翻轉,縮放,參考從零構建機器學習模型 一 資料預處理初階,主要作為提公升模...
如何評估機器學習模型的效能
機器學習的模型效能評估,主要是確定在trainingset中的誤差,更重要的是在測試集的誤差,對新模型的學習能力,也就是所謂的泛化能力。因此資料集的確定尤為重要,將樣本資料集分為trainingset 和 testingset,資料集的劃分要注意如下兩個方面 1 盡量保證trainingset 和 ...