** 泛化能力,過擬合,欠擬合,效能度量 **
泛化能力指的是機器學習演算法對新鮮樣本的適應能力。機器能從訓練樣本中學到適用於所有潛在樣本的普遍規律,在遇到新樣本中能做出正確判別的能力
把樣本中的一些雜訊特性也學習下來了,泛化能力差
比如決策樹演算法中,id3演算法中的編號會被該演算法認為是資訊增益最大的屬性,但是若是新增編號,就會嚴重過擬合,泛化能力很差。
模型沒有很好地捕捉資料特徵,不能很好地擬合資料。
可能會遺漏一些重要的擬合因素。
比如買瓜,只考慮色澤,不考慮敲擊聲與根莖。
比如衡量乙個人是否適合一項工作,只考慮經驗,不考慮具備的技術。
衡量模型泛化能力的數值評價標準
效能度量反映了任務需求,在對比不同模型的能力時,使用不同的效能度量往往會導致不同的評判結果。
這也意味著模型的好壞不僅取決於演算法和資料,還取決於任務需求。
機器學習常用術語
機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解 2 空間 就是表示 可能存在的取值 比如模型空間就是表示 所有可能的模型的取值 引數空間 表示 所有可能的引數 樣本空間表示 所有可能的樣本 3 樣本 是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號...
機器學習常用術語
機器學習作為人工智慧的乙個重要領域,我們有必要對其基本術語有清晰的理解 2 空間 就是表示 可能存在的取值 比如模型空間就是表示 所有可能的模型的取值 引數空間 表示 所有可能的引數 樣本空間表示 所有可能的樣本 3 樣本 是指資料集中的每一條單獨的資料。如沒有說明,會預設資料集中有n個樣本,用符號...
機器學習之常用術語
1.機器學習的時候對選擇不同模型的時候,先分辨樣本呢的離散程度,那麼離散和連續屬性的判斷方法?離散值是確定的一些值,連續值是無序,有範圍的。比如硬幣只有 0和1 兩種情況,就叫離散值,而人的身高有無數種情況,就叫連續值。2.首先談談什麼是過擬合呢?什麼又是欠擬合呢?網上很直接的理解如下 網上很直接的...