自己開發了一**票智慧型分析軟體,功能很強大,需要的點選下面的鏈結獲取:
以識別芒果的好壞的案例來說明概念。
特徵:描述物體的屬性值,例如芒果的顏色、大小、形狀、產地、品牌等;
特徵向量:由物體的特徵值構成的向量。
標籤:標識物體的準確屬性,識別的目標值。例如芒果的甜度、水分、成熟度的綜合評分。
樣本:獨立的乙份特徵資料和標記,例如乙個標記好特徵和標籤的芒果。
訓練集:用於訓練演算法的樣本集。
測試樣本:用於測試演算法有效性準確性的樣本集。
模型,學習準則,優化演算法
機器學習的目標是找到乙個模型近似真實的對映函式,將輸入轉化為輸出,輸出和目標結果近似。
(1)線性模型,wt是權重向量,b為偏置。
(2)非線性模型,ϕ(x)是k個非線性基函式組成的向量,ϕk(x)是乙個非線性函式。f(x,θ)是非線性函式的線性組合。
如果"ϕ(x)"為可學習的非線性基函式,"f(x,θ)"就等價於神經網路。
好的模型應該在輸入輸出取值覆蓋真實的情況,模型函式與真實的對映函式之間一致,計算出的誤差在很小的範圍內。可以通過期望風險這個引數來判斷模型的好壞。p(x,y)表示真實的資料分布,£(f(x),y)為損失函式。
損失函式
用來量化模型**和真實標籤之間的差異。
(1)01損失函式,將**值和實際值比較,正確為1,不正確為0直觀,但是不連續。
(2)平方損失函式,求出**值和實際值差的平方和取均值。
(3)經驗風險最小化,找到一組引數是的模型在訓練集上的平均損失(經驗風險)最小。經驗風險最小化準則容易導致模型在訓練集上過擬合。所以需要引數加入乙個正則化項來限制模型能力,使模型不要過度的最小化經驗風險,這個叫做結構風險最小化。正則化項是引數的範德蒙範數乘以係數λ。
過擬合:演算法對訓練集學習很好,但是由於訓練集是真實資料的乙個子集,存在雜訊等原因,在訓練集上面錯誤率低,但是在未知資料上錯誤率很高。
欠擬合:模型不能很好的擬合訓練資料,在訓練集上錯誤率比較高。
確定了訓練集,假設空間,和學習準則。找到乙個最優的模型就是最優化求解過程。
(1) 引數模型f(x,θ)的引數θ可以通過演算法優化進行學習。
(2) 超引數,用來定義模型結構或者優化策略的引數,例如梯度下降法中的步長,神經網路的層數,正則化項係數λ等。超引數一般根據經驗來設定,或者搜尋的方法對一組超引數進行試錯調整。
機器學習中三要素
機器學習的三要素是模型 策略 方法 模型 統計學習首要考慮的問題是學習什麼樣的模型。在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。策略 策略即從假設空間中挑選出引數最優的模型的準則。模型的分類或 結果與實際情況的誤差 損失函式 越小,模型就越好 策略是通過引入損失函式來度量模型的好壞。...
機器學習方法三要素
為了解決任務t,設計一段程式,從經驗e中學習,達到效能度量值p,當且僅當有了經驗e後,經過p評判,程式在處理t時的效能得到提公升.就是要學習的概率分布或決策函式 所有可能的條件概率分布或者決策函式構成的集合就是模型的假設空間 從假設空間中學習最優模型的方法,稱為策略 衡量模型好與不好需要一些指標,這...
機器學習ML方法三要素
機器學習方法三要素 模型 策略 演算法 使用者會員資訊 使用者 性別學歷 工作年限 消費額度商三男 本31000李思女 專2800給降使用者的各個屬性值數值化,如男和女用1和0表示,研究生,本科,專科,高中 分別用過 4,3,2,1表示,年限就直接用0,1,2,3,4表示,等那麼公式可以列為 判斷值...