機器學習基礎知識
1、 誤差
學習器實際**輸出與樣本的真實輸出之間的差異稱為「誤差」
有經驗誤差(也成訓練誤差)和泛化誤差。
我們實際需要的是泛化誤差較小的學習器。
2、 過擬合與欠擬合
過擬合:學習能力太過強大,把訓練樣本中的特殊特性當作一般特性導致泛化效能下降。
欠擬合:學習能力低下,不能很好的**輸出。
3、 評估方法
測試集於訓練集選取盡可能互斥。
如何選取訓練集與測試集,有如下幾種方法:
1) 留出法:將資料集d劃分為兩個互斥的集合,乙個為訓練集s另乙個為測試集t,d=s⋃t,s∩t=∅(訓練集與測試集的選取通常採用分層抽樣的方法,並且單次使用留出法所得到的結果不夠穩定可靠,一般要採用多次劃分重複進行實驗後取平均值作為評估結果,一般2/3—4/5的資料用於訓練)
2) 交叉驗證法:將資料集d劃分為k個大小相似的互斥子集,即d=d1⋃ d2⋃d3⋃…⋃dk,di∩dj=∅(每個子集通過分層取樣得到,用k-1個子集進行訓練,餘下的子集作為測試集,訓練k次返回k次結果的均值,這種方法的極限是留一法)
3) 自助法:給定包含m個樣本的資料集d,每次隨機從中挑選乙個樣本放入d』中,再將此資料放回d中,然後再進行取樣此過程重複m次,我們就得到包含m個樣本的資料集d』(樣本在m次取樣始終不被採到的概率 ,則這部分作為測試集。自助法在資料集較小,難以劃分訓練集時使用,但是自助法改變了初始資料的分布會帶來誤差)
4、 調參
對每乙個引數選定乙個範圍和變化步長,例如在[0,0.2]範圍內以0.05為步長,則有5個候選值需要我們測試,假定演算法有3個引數每個引數有5個候選值則有 個模型需要測試,工作量非常大。)
5、 效能度量
模型的好壞不僅取決於演算法和資料還取決於任務需求。
回歸任務(連續值**學習任務稱為回歸,離散值**學習任務稱為分類)常用的效能度量是「均方誤差」:
1) 錯誤率與精度: (簡單公式) (m個樣本中有α個分類錯誤)
精度=1-錯誤率
2) 查準率、查全率
查全率與查準率是一對矛盾的度量,一般來說其中乙個較高時另乙個一般較低,只有在資料簡單時才會同時較高。
p-r曲線圖(p為縱軸,r為橫軸作圖),若乙個學習器的p-r曲線被另乙個學習器的p-r曲線完全包住,則可斷言後者優於前者。(若有交叉則在具體的查全率與查準率下分析,例如計較平衡點查準率=查全率的值,或者比較兩曲線所包圍面積的大小。)
3) f1、fβ、巨集查準率等、微查準率等
4) roc與auc
roc:受試者工作特徵曲線(縱軸真正例率,橫軸假正例率,若乙個曲線被另乙個曲線完全包住則後者優於前者,若有交叉則比較好的辦法則是比較roc曲線下的面積auc)
機器學習基礎知識
machine learning的主要兩個應用方面 人工智慧 資料科學。什麼是人工智慧 artificial intelligence ai是不確定性管理 uncertainty management 的體現 ai what to do when you don t know what to do ...
機器學習基礎知識
為了解決任務t,設計一段程式,從經驗e中學習,達到效能度量值p,當且僅當有了經驗e後,經過p評判,程式在處理t時的效能得到提公升1.特徵表示 2.選擇模型 3.訓練模型 4.模型評估 1.模型 2.策略 3.演算法 1.有監督學習 1.1 分類 樣本標籤屬於離散變數 判別模型 1.2 回歸 樣本標籤...
機器學習基礎知識
訓練樣本帶有標籤,y f x f x 是標籤 回歸 y可以產生許多值,並且這些值具有連續排序 分類 y是離散的,只有很少的值 訓練樣本沒有標籤 聚類 將資料分割成相似專案的單個類的過程 降維 指為了檢視資料而在更簡單的視角下運算元據 通過觀察環境如何對動作做出反應來手機資訊,是一種與環境互動的機器學...