交叉驗證:為了得到較為可靠的測試結果,測試集的樣本數量不能太少,但在總體樣本數量較少的情況下,如果拿出足夠數量的樣本組成測試集,則訓練集樣本會不足,此時可以使用交叉驗證的方法(輪流取不同的樣本做測試集),就不必擔心測試集樣本太少,極端情況下可取測試集樣本數量為一,稱為留一法。使用交叉驗證可以在總樣本數量不變的情況下,最大化訓練集樣本數量。
機率(odds):該事件發生的概率與該事件不發生的概率的比值。
函式間隔:樣本點(x,y)到超平面(w,b)的距離為 ||y(w*x+b)|| / ||w||,超平面(w,b)關於樣本點(x,y)的函式間隔為 y(w*x+b)
經驗風險:模型在訓練集上的平均損失函式值。
結構風險:新增了正則項的經驗風險。
期望風險:模型在全體樣本上的平均損失函式值,精確的計算要用到樣本的概率分布。期望風險真正代表了模型的效能優劣,在實際中期望風險不容易計算,可以通過模型在測試集上的平均損失函式值來近似。
一句名言:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。
機器學習基本概念
什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...
機器學習基本概念
1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...
機器學習基本概念
1.基本概念 訓練集 測試集 特徵值 監督式學習 非監督學習 半監督學習 分類 回歸 2.概念學習 概念學習是指從某個布林函式的輸入輸出訓練樣例中推斷出該布林函式。3.樣例 天氣 溫度 濕度 風力 水溫 預報 享受運動 1 晴 暖 普通 強 暖 一樣 是 2 晴 暖 大 強 暖 一樣 是 3 雨 冷...