1.1 模型
決策函式: 僅僅給出屬於乙個類別的值----決策樹
條件概率分布函式: 不僅僅給出類別的值,還需要給出概率—lr演算法
1.2 策略
評價模型的好壞,使用損失函式進行度量,模型給出的值與實際真實值存在的差別。
損失函式度量模型一次**的好壞,常用的損失函式有:
損失函式的值越小,模型就越好.
1.3 演算法
機器學習的演算法就是求解最優化問題的演算法
2-對特徵進行處理
3-訓練模型
4-選擇最佳模型
5-對新資料進行**
舉例子:那一條曲線的擬合效果最好
第乙個影象和第二個影象是欠擬合的影象
欠擬合發生的原因?
如何解決欠擬合的問題?
增加多項式的項的次數
減少正則罰項
第四個影象是過擬合的影象
過擬合的發生時期:
過擬合的發生的原因:
過擬合的解決辦法:
選擇乙個好的模型要泛化效能好,避免欠擬合和過擬合.
遵循奧卡姆剃刀原則: 在具備相同或相似泛化能力的基礎上,優先選擇較為簡單的模型. 本質就是: 防止模型過擬合
3.1 經驗風險和結構風險
模型f(x)關於訓練資料集的平均損失稱之為經驗風險(emprical risk)或經驗損失(empirical loss),記作r(emp)
監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
3.2 模型評估和模型選擇
當損失函式給定時,基於損失函式的模型的訓練誤差和模型的測試誤差就自然成為了學習方法評估的標準。
3.3 正則化
模型選擇的典型方法是正則化,正則化一般形式如下:
經驗風險較小的模型可能較複雜,這時正則化項的值會較大,正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。
正則化項符合奧卡姆剃刀原理,在所有的可能的模型中,能夠很好的解析已知資料並且十分簡單的模型才是最好的模型,從貝葉斯估計的角度來看,正則化項對應於模型的先驗概率,可以假設複雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。
借助於近些年發展起來諸多強大的開源庫,我們現在是進入機器學習領域的最佳時機。使用成熟的機器學習庫幫我完成做好的演算法,我們只需要了解清楚各個模型的引數如何調整就能夠將模型應用於實際的業務場景。
簡單高效的資料探勘和資料分析工具
建立在numpy,scipy和matplotlib上
開源,可商業使用-獲取bsd許可證
如何學好機器學習
你好,我正在學習語音頻號處理方面內容 感覺各種模型及算式不太理解,請教下這方面內容應如何掌握,是否需要別的預備知識 覺得這個問題很有共性,就在我愛公開課上丟擲來了。事實上我個人也是在摸索中,不過有一些心得,所以以下的回答,權當拋磚引玉 個人覺得,首先需掌握線性代數,微積分,概率統計等數學課程基本知識...
機器學習要點理解(四 隨機森林)
bagging思想,bootstrap aggregating,思想就是從總體樣本當中隨機取一部分樣本進行訓練,通過多次這樣的結果,進行投票獲取平均值作為結果輸出,這就極大可能的避免了不好的樣本資料,從而提高準確度。隨機森林採用bagging思想,重複取樣,生成多棵樹。1 資料集為n,隨機從資料集裡...
機器學習關鍵步驟(四)
機器學習有四個關鍵步驟。1 資料準備,理和準備待分析的資料。2 演算法選擇,根據需求挑選演算法為資料建立模型。3 引數調優,優化模型結果。4 模型評估,根據準確度評價模型選出最好的。建好模型之後,必須對它進行評價。經常會使用一些評價指標來比較模型的 準確度。對於如何定義和懲罰不同型別的 誤差,不同的...