第一章緒論就丟擲一堆概念,看到假設空間與樣本空間有點懵,查了一些資料才大概了解,記錄一下。我的理解是:針對某乙個問題,所有可能存在的情況的集合,比如說書上的西瓜問題,西瓜的特徵有三個,色澤、根蒂、敲聲,這三個特徵可以用來描述乙個西瓜,已知的特徵中色澤有兩種,根蒂有三種,敲聲有三種,根據排列組合是有18種情況,但是其他的西瓜可能並不侷限於這18種情況,我們是要找到能夠描述好瓜的特徵,有可能只要敲起來濁響,無論根蒂和色澤是什麼樣的都是好瓜,也有可能不存在好瓜,三個特徵都是空。
版本空間:是概念學習中與已知資料集一致的所有假設的子集集合。假設空間考慮了所有的情況,但是其中的一些情況與已知的資料集不一致,比如在已知的資料集中是存在好瓜的概念,所以假設空間中的ø就屬於版本空間的。
根據西瓜問題,假設空間應該如下所示:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 ø
以上49種情況就是『好瓜』的假設空間
根據已知資料集:
編號色澤
根蒂敲聲好瓜1
青綠蜷縮濁響是
2烏黑蜷縮濁響是3
青綠硬挺清脆否
4烏黑稍蜷沉悶
否根據資料集中編號1的情況,可以將樣本空間中3、5、6、8、9、11-15、17-21、23-30、32-49刪除,互相矛盾。
根據資料集中編號2的情況,可以將剩餘樣本空間中2、10、16、31刪除。
根據資料集中編號3的情況,可以將剩餘樣本空間中1刪除。
根據資料集中編號4的情況,沒有可以刪除的了。
所以學習過後的版本空間為
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
也就是書上圖1.2的內容。
在刪除假設空間時根據資料集中編號1刪除的會比較多,因為是要尋找能夠描述好瓜的特徵,只要和編號1中的內容想衝突就要刪掉,看到有些帖子下面在問」為什麼假設空間裡把資料集裡的好瓜去掉?「我認為這是在尋求乙個能描述好瓜的特徵,而假設空間中資料集中的好瓜只能描述資料集中的乙個值,但是和資料集中其他的值衝突了,所以要刪除掉。
最後放乙個圖:
對於二維空間中的「矩形」假設(上圖),綠色加號代表正類樣本,紅色小圈代表負類樣本。 gb 是最大泛化正假設邊界(maximally general positive hypothesis boundary), sb 是最大精確正假設邊界(maximally specific positive hypothesis boundary). gb與sb所圍成的區域中的矩形即為版本空間中的假設,也即gb與sb圍成的區域就是版本空間,也就是中間綠色線條所構成的空間。
機器學習(假設空間與版本空間)
假設空間 所有屬性的可能取值所組成的集合,比如西瓜 色澤屬性可取 青綠,烏黑,淺白,根蒂屬性可取 蜷縮,稍蜷,硬挺,敲聲屬性可取 濁響,清脆,沉悶,以及好瓜假設不存在。即西瓜問題的假設空間大小為 4 4 4 1 65 版本空間 根據已獲取的資訊 資料集 對假設空間進行剪枝,即找到乙個與資料集匹配的假...
假設空間與概念空間(版本空間)
參考部落格 首先說明概念1 版本空間 version space 是概念學習中與已知資料集一致的所有假設 hypothesis 的子集集合。即是版本空間是假設空間中於樣本滿足一致的 假設集合 是基於樣本決定的。gb 是最大泛化正假設邊界 maximally general positive hypo...
假設空間與版本空間的理解
2019.6.4 機器學習第一章,問題理解 假設空間 所有假設組成的空間。從大類上劃分,瓜有好瓜的可能,瓜有壞瓜的可能和瓜無好壞之分,即無 好瓜 這種東西。上圖中,西瓜訓練集,色澤,根蒂,敲聲,三個屬性中。1 色澤可有青綠 烏黑 淺白三種取值。2 根蒂可有蜷縮 硬挺 稍蜷三種取值。3 敲聲可有濁響 ...