參考:
資料集
(色澤=青綠;根蒂=蜷縮;敲聲=濁響)
(色澤=墨綠;根蒂=稍蜷;敲聲=沉悶)
(色澤=淺白;根蒂=硬挺;敲聲=清脆)
······
基本概念:
1、樣本——這批資料裡的每對括號。
2、資料集——樣本的集合。
3、特徵、屬性——色澤、根蒂、敲聲等反映事物的本質的可觀察方面。
4、屬性值——青旅、墨綠、蜷縮、濁響等,是屬性的取值。
5、屬性空間、樣本空間、輸入空間——屬性張成的空間。把屬性當作座標軸,形成乙個空間,那麼樣本就是這個空間中乙個個的點。例如,吧「色澤」、「根蒂」、「敲聲」作為座標軸,則生成乙個三維空間,每個西瓜都是這個空間裡的乙個點。
6、維數——資料集的特徵數量。本例中的維數是3。
7、假設——也稱假設函式,指計算機通過學習後得到的乙個函式(**模型)。
8、標記——關於樣本結果的資訊,比如乙個(色澤=青綠;根蒂=蜷縮;敲聲=濁響)的西瓜是好瓜,那麼「好瓜」就是(色澤=青綠;根蒂=蜷縮;敲聲=濁響)這個樣本的標記。
9、樣例——帶有標記的樣本,比如((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)
10、標記空間、輸出空間——所有標記的集合。本例中就是指{好瓜、壞瓜}。
11、泛化——如果用某個資料集的樣本訓練出的乙個模型(假設函式),能夠適用於新的樣本資料,就說這個模型具有泛化能力。模型能適用於越多的新資料,則說明其泛化能力越強。
12.假設空間----所有假設組成的空間,假設顏色有2種(深綠,淺綠),根蒂有2種(蜷縮,稍蜷),敲聲有2種(濁響,沉悶),有可能好瓜與顏色無關,因此顏色有3種可能性(深綠,淺綠,無關),依次類推,根蒂,敲聲都有3種可能性,共有3*3*3種可能, 還有可能好瓜這種假設根本不成立,因此一共有3*3*3+1種假設
推廣: 假設乙個事物有2個特徵,每個特徵的屬性分別有x 種和y種,那麼假設空間就有(x+1)*(y+1)+1種
13. 版本空間: 可能對於乙個訓練集,有多種假設都滿足要求,這多種符合要求的假設構成了版本空間
分類 : **離散值,比如好瓜和壞瓜
回歸:**連續值,比如房價與面積的關係
歸納偏好: 演算法對某種型別假設的偏好
過擬合: 機器學習需要從訓練集訓練處乙個模型,能夠很好的應用於新的樣本,當模型把訓練集中的某些特徵當做了普遍規律,很可能無法適用於新集合,就產生了過擬合
機器學習(1) 基本概念
神經網路技術起源與上世紀50年代。當時叫做感知機。擁有輸入層,輸出層和乙個隱含層。這種感知機被稱為單層感知機 1959,機器學習被定義為不直接程式設計的情況下賦予計算機學習能力。1974年哈佛大學的paul werbos發明bp演算法。bp演算法正是用來求解這種多層復合函式的所有變數的偏導數的利器。...
機器學習1 基本概念
1.機器學習定義 機器學習 arthur samuel,1959 在確定程式設計之外給予計算機學習能力的研究領域。機器學習 tom mitchell,1998 如果電腦程式對於任務t的效能度量p通過經驗e得到了提高,則認為此程式對e進行了學習。2.機器學習四個主要內容 監督學習 包括回歸 連續性問題...
機器學習基本概念(1)
機器學習是研究如何通過計算的手段,利用經驗來改進系統的效能,而經驗往往是指資料。機器學習本質上是一種複雜的演算法,它通過在大量的資料中挖掘隱含的資訊,從而達到 輸出和分類的目的。通過學習得到的模型,很好的適用於新的樣本,這種能力也叫泛化能力。資料集 n條記錄的集合 示例 樣本 特徵向量 每條記錄關於...