這兒主要歸納一下,樣本空間、假設空間、版本空間的定義,三者的聯絡與區別。
西瓜資料集 編號
色澤根蒂
敲聲好瓜1青綠
蜷縮濁響是2
烏黑蜷縮濁響是
3青綠硬挺清脆否4
烏黑稍蜷沉悶否
一:樣本空間
上表中給出了四種實際存在的情況,也即是我們目前所能獲得的訓練集。樣本空間的標準定義是:所有可能存在的、合理的、情況的集合。機器學習的主要工作就是尋找從屬性空間(x)到標記空間(y)的乙個對映關係。說法很多,但可以認為xi-yi實際存在的乙個組合就是乙個樣本,而所有樣本的集合,就是樣本空間。而上述的的訓練集只是樣本空間乙個很小的取樣。
二:假設空間
起初,我們並不能得到樣本空間。只有樣本空間的乙個很小的子集,也就是上面的四條樣本。但可以確定的是(目前姑且這樣認為)每一條示例有三條屬性,即乙個瓜的好或不好,由三個屬性確定,而每個屬性有三個值。就拿西瓜的顏色來說,表中有青綠、烏黑,姑且加一種淺白(僅為演示何為假設空間),可以確定的是乙個好瓜應該是青綠或烏黑色;但也可能,西瓜的好或不好與顏色無關,即在好瓜的情況下西瓜的顏色可能是*(*代表任意顏色),那麼西瓜的顏色這一屬性就有四個可能的取值。
即假設空間可以這樣定義:色澤:*、根蒂:*、敲聲:*是好瓜。色澤:*、根蒂:*、敲聲:濁響是好瓜。色澤:*、根蒂:*、敲聲:清脆是好瓜。色澤:*、根蒂:*、敲聲:沉悶是好瓜。這是乙個簡單的排列組合問題。一共有4*4*4+1=65種情況。最後的1表示任何情況都不是好瓜,即沒有好瓜的情況。
可以看出來,假設空間是在已知屬性和屬性可能取值的情況下,對所有可能滿足目標(好瓜)的情況的一種毫無遺漏的假設集合。
三:版本空間
從上面可以看到,假設空間,單純的羅列的所有可能的情況,這更多的是一種數學上的羅列。顯然假設空間中肯定有很多是不滿足情況的,或是不合理的。…………比如根據上述**中的訓練資料(樣本空間的子集)可以看出,「色澤:青綠、根蒂:硬挺、敲聲:清脆不是好瓜「,所以假設空間中的「色澤:青綠、根蒂:硬挺、敲聲:清脆是好瓜」顯然是錯誤的假設,應當捨去。…………上面是刪除假設空間明顯錯的假設。但還有那種不錯誤,但會有嚴重誤導傾向的假設也需要刪除。比如假設空間中有「色澤:青綠、根蒂:蜷縮、敲聲:濁響是好瓜」,這和訓練資料集正好吻合,顯然是正確的,但是對於假設空間來說,此條假設也應該被刪除。因為如果說「色澤:青綠、根蒂:蜷縮、敲聲:濁響是好瓜」那麼「色澤:烏黑、根蒂:蜷縮、敲聲:濁響就不是好瓜了」這顯然有種「過度精確」的錯誤。僅根據上述訓練集中的四條資料來判斷,「色澤:*、根蒂:蜷縮、敲聲:濁響是好瓜」便比較合適了。這能很好的契合表中的四條資料。…………如果按照上述原則「色澤:淺白、根蒂:蜷縮、敲聲:濁響」會被判斷為好瓜,這正確與否顯然是不知道的。所以,如果想做出正確的判斷,就需要全面大量的訓練,目的就是盡量的排出假設空間中不合理的假設。而剩下的假設就是在滿足已有訓練資料集的情況下,做出的最優選擇了。…………現實問題中,我們常面臨很大的假設空間,但學習過程是根據有限的樣本訓練集進行的,那麼對於不同版本的訓練集,應該會有不同版本的「刪除後」的假設空間與之對應。便稱之為版本空間。
人工智慧之我見(1)
1過去 人工智慧其實在計算機誕生的時候已經伴隨著產生,圖靈在設計計算機的時候,其實就伴隨著 圖靈測試 圖靈一開始為了破解德軍密碼發明的,但後面其實他希望計算機能賦予其人的靈魂,交談溝通,甚至情感。2現在 人工智慧潛伏60年,被互諒網喚醒。1956年達特茅斯會議上,第一次提成 人工智慧 這個名詞,後面...
人工智慧 1 概論
參考 智慧型的概念 知識 智力 獲取並應用知識求解問題 智慧型的特徵 感知 記憶 思維 處理資訊 學習 行為 思維 邏輯 形象 頓悟 靈感 基本內容 知識表示 機器感知 機器思維 機器學習 機器行為 研究領域 自動定理證明 博弈 模式識別 機器視覺 自然語言理解 智慧型資訊檢索 資料探勘與知識發現 ...
人工智慧實踐 1 概述
cnn 卷積神經網路 convolutional neural network rnn 迴圈神經網路 recurrent neural network 機器學習 統計學方法,計算機利用已有資料,得出某種模型,再利用此模型 結果 三要素 資料 演算法 算力 機器學習的主流應用 連續資料的 離散資料的分...