機器學習 第四章 概念學習

2021-09-19 05:10:00 字數 2045 閱讀 5975

本文為閱讀總結個人認為書裡概念性的、對本人有幫助的內容,僅供參考。

邏輯模型的特點是它們均通過邏輯表示式將例項空間劃分為一組區隔,因此所構建的都是分組模型。而其目標可概括如下:針對所要解決的任務,找到可使每個區隔中的資料更為一致的例項空間劃分方案。

在分類任務中我們希望找到這樣一種劃分:位於每個區隔中的絕大部分例項均來自同一類。

在回歸任務中,所謂好的劃分是指目標變數為少數**變數的乙個簡單函式。

本質上,邏輯模型可分為兩類:樹模型和規則模型。

樹模型是一種受限制的規則模型,其規則的if部分是以樹形結構組織的。

樹模型和規則模型源願超越了概念學習的範疇,因為它們可用於解決多類問題、概率估計問題、回歸問題以及聚類問題。

合取、析取

德·摩根定律:

若布林表示式a對例項

子句是乙個蘊含關係

子句等價於若干文字的析取。

任意邏輯表示式可表示為一組子句的合取,通常稱之為合取正規化。同樣,任意邏輯表示式也可表示為由一組文字的合取所構成的析取,通常稱之為析取正規化。

規則是乙個子句

最簡單的概念學習設定是限定用於描述概念的邏輯表示式為僅由一組文字的合取構成。

最小一般性假設,通常被稱為最小一般泛化(least general generalization,lgg)。

lgg是我們能夠從資料中學習到的最為保守的泛化。

最小一般假設和最大一般假設之間的每乙個概念也都是可能的假設,即它們都可覆蓋所有的正例,且不覆蓋任何負例。在數學上,我們稱與這些資料一致的假設是乙個凸集,這意味著我們可在該集合的任意量成員之間插值,且如果我們找到了乙個一般性比其中乙個成員略差,而比另乙個成員更強的概念,則這個該你那也是這個集合的乙個成員。反過來,這意味著我們可通過最小一般成員和最大一般成員來描述由所有可能的假設所構成的集合。

如果乙個概念能夠覆蓋所有的正例,則稱該概念是完備的。如果乙個概念未覆蓋任何負例,則稱其具有相容性。版本空間是由所有完備的相容概念構成的集合。該集合為一凸集,且由其最小一般元素和最大一般元素完全定義。

通過泛化,沿著假設空間向上移動意味著被覆蓋的正例和負例數目將單調不減。換言之,通過假設空間中的一條向上路徑對應一條覆蓋曲線,從而對應於某個排序序列。

概念學習可視為尋求通過假設空間的最優路徑。

尋找一般相容假設要比尋找最小完備假設複雜的多。

概念的最小特化是指可在假設網格結構中想下一步所到達的假設。

如果乙個概念包含了所有隱式承認的條件,則稱之為乙個封閉概念。本質上,封閉概念是它所覆蓋的所有例項的lgg。

未被覆蓋的正例會引導我們將一些文字從合取式中移除,以實現概念的推廣;而未被覆蓋的負例則要求我們增加一些文本來實現概念的特化。

當負例僅有乙個被設為假的文字時,排除該負例的最特定的子句便是唯一的。

在負例中被設為真的文字越少,則用於排除該負例的子句就越具有一般性。

從屬關係:某個例項是否是我們所要學習的概念的成員。

首先,horn是一種主動學習演算法,即自行構造訓練樣本並依據從屬假設對這些樣本進行標記,而非從某個給定的資料集中學習。其次,該演算法的核心是乙個精心選擇的負例列表,依據它可周期性地重新構造假設。求交這一步至關重要:如果該演算法只能記憶負例,則假設中勢必將包含許多特化的子句。

一階謂詞邏輯(簡稱一階邏輯)利用謂詞和項構建更為複雜的文字。這種更豐富的邏輯語言具有下列優點:

要開始研究可學習性問題,我們首先需要乙個學習模型,即如果稱某個概念語言是可學習的,則應給出我們所想內容的清晰闡述。

我們假定樣本的典型性由某個未指定的概率分布d決定,且假設的錯誤率

vc維是可被某種假設語言或模型完美分離的最大例項集的容量。

vc維度量了模型類表示概念或兩類分類器的能力。d維線性分類器的vc維是d+1。

借助vc維,我們可推導無窮多概念類的樣本複雜性,只要這些概念類的vc維是有限的。

當且僅當乙個概念類的vc維是有限的,它才是pac可學習的。

概念學習可被視為尋找一條通過roc理想點的向上路徑。

horn理論在表面上與分類規則模型非常相似。然而,二者有乙個極為重要的差別,即分類規則將目標變數放在規則的then部分,而我們此處關注的horn子句在then部分可放置任何文字。

機器學習

機器學習第四章學習筆記

真的不開學了嗎,家裡蹲一學期?頂不住了 而在學習的過程中,首先的問題就是解域 這兩個引數的解究竟在哪個範圍,確定了範圍再求出最優解 也就是在解域中求得最優解 首先對於資料預處理,使兩類在超平面的同一側 並行感知機和序列感知機是以樣本的給出方式劃分的,樣本一次全部給出稱為並行,乙個乙個給出稱為序列 而...

機器學習 第四章KNN演算法

k近鄰演算法是機器學習中最簡單的分類演算法之一,這篇文章主要講解knn演算法的在scikit learn中的使用,其中不僅僅包括了演算法本身,還有測試訓練集的分離,交叉驗證的使用,資料標準化等。首先用乙個簡單的例子引入knn演算法 import numpy as np import matplotl...

python學習第四章

1.建立字典 每個鍵和它的值之間用冒號隔開,項之間用逗號隔開,整個字典使用一對大括號括起來。2.字典基本操作 len d 返回d中項的數量。d k 返回關聯到鍵k上的值。d k v將值v關聯到鍵k上。del d k 刪除鍵位k的項。k in d檢查d中是否有含有鍵為k的項。3.字典的格式化字串 可以...