資料集
:只有乙個屬性承擔了所有工作,其它的都是無關或者冗餘的屬性。
它適應於類目屬性、預設值和數值屬性。
方法:1規則(1-rule,1r),是乙個能從例項集裡方便的找到非常簡單的分類規則方法。
特點:它產生一層的決策樹,用乙個規則集的形式表示,只在某個特定的屬性上進行測試。
想法:建立乙個只對單個屬性進行測試的規則,並應用於不同的分支,每個分支對應乙個不同的屬性值,分支的類就是訓練資料在這個分支上出現最多的類。
演算法實現(偽**):
1:對於每乙個屬性
2: 對於該屬性的每個屬性值,產生一條規則:
3: 計算每個類別出現的次數
4: 找出最頻繁的類別
5: 產生一條規則將該類別分配給該屬性值
6: 計算規則的誤差率
7: 選擇誤差最小的規則
演算法說明:每乙個屬性都會產生乙個不同的規則集,屬性值的數目對應規則集的數目,即規則集中的每條規則對應乙個屬性值。
預設值處理:把預設值作為另外乙個屬性值,例如,如果天氣資料在outlook屬性中存在預設值,資料集,那麼將對應4個規則。
數值屬性處理:下面介紹乙個簡單的資料離散化的方法,如下:
(1)將訓練樣本按照數值屬性的值進行排序,產生乙個類值序列。例如,天氣資料在溫度屬性值上的排序:
64
65
68
69
70
71
72
72
75
75
80
81
83
85
yes
no
yesyes
yes
nono
yes
yes
yes
no
yes
yes
no
(2) 在類值發生變化處放置斷點,產生8個區間: yes | no | yes yes yes | no no | yes yes yes | no | yes yes | no (3) 將斷點設定在兩遍樣本中間的位置,即64.5 , 66.5 , 70.5 , 72 , 77.5 , 80.5 , 84。 (4) 有些屬性值卻屬於兩個不同的類別,最簡單的辦法是將處於左右側的屬性值再向右移動乙個位置,從而產生乙個新的斷點,即64.5 , 66.5 , 70.5 , 73.5 , 77.5 , 80.5 , 84。
(5) 1r演算法將傾向於被**成很多區間的屬性,例如標識碼屬性表示例項是唯一的,在訓練上的錯誤率為0,。高分支屬性在測試集上通常不能有很好的表現。為了避免過度擬合的現象,需要制定一條規則,這條規則規定每個區間上多數類樣本必須達到最小值。本例設定最小的樣本數目為3,實踐中設定為6。新產生的分離結果如下:
yes no yes yes yes | no no yes yes yes | no yes yes no
(6) 如果兩個相鄰的區間擁有相同的多數類時,將他們合併之後並不會影響規則集的意義,最終結果如下:yes no yes yes yes no no yes yes yes | no yes yes no
(7) 產生的最後的規則如下: 溫度:<= 77.5 -> yes> 77.5 -> no
預設值和數值屬性:
如果乙個數值屬性存在預設值,為預設值簡歷乙個額外的區間,並且只離散化屬性值。
總結:儘管1r非常簡單,但是它的表現卻異常圖書,甚至可以和景點的機器學習演算法相媲美。在確定了效能基線的情況下,建議採用「簡單優先」的方法,首先採用簡答的、基本的技術,然後再將它發展成更加精細的方案。
XML基本規則
1.xml 文件必須包含在乙個單一元素中 2.xml 元素不能重疊,必須正確的巢狀 3.不能省去任何結束標記,或者說標記必須成對 4.xml 元素是區分大小寫的,也就是大小寫敏感 5.xml 文件中的屬性有兩個規則 屬性必須有值 那些值必須用引號括起,可以使用單引號,也可以使用雙引號,但要始終保持一...
GO基本規則
工作區是放置go原始碼檔案的目錄 一般情況下,go原始碼檔案都需要存放在工作區中,但對於命令原始碼檔案,這不是必須的 用於存放原始碼檔案 以 包為組織形式 用於存放歸檔檔案 名稱以.a為字尾的檔案 用於存放當前工作區中的go程式的可執行檔案 當環境變數gobin已有效設定時,該目錄會變的無意義 當g...
CI Repo XML基本規則
remote remote需要指定的是遠端的git庫的名稱,比如我們常用的其實都是origin,但是如果有多個git位址,就不能用origin,應該要有自己的名稱,這裡的名稱有點像是遠端倉庫的識別符號id。key有了,另外乙個就是value了,value就是遠端伺服器位址比如 default 預設的...