分類 基於規則的分類 RIPPER演算法

2021-09-10 13:21:59 字數 634 閱讀 3034

在《分類:基於規則的分類技術》中已經比較詳細的介紹了基於規則的分類方法,ripper演算法則是其中一種具體構造基於規則的分類器的方法。在ripper演算法中,有幾個點是演算法的重要構成部分,需要強調一下

ripper演算法中採用的仍然是基於類的規則排序方式,不過獨特的地方是,它先將各個類按頻率(即類中包含的樣本佔總樣本數的比例)從低到高排序,設

ripper演算法使用foil資訊增益來選擇最有的合取項來新增到規則前件中,當規則開始覆蓋反例時即停止新增合取項,此時採用irep剪枝方法,將規則在驗證集上剪枝,是否剪枝則需要依據如下度量引數來決定

其中一條規則生成後,是否能夠新增到規則集中還需要經過兩個條件判斷首先,該規則不違反最小描述長度原則(mdl);其次,規則在驗證集上的錯誤率不超過50%。關於最小描述長度原則,這裡稍微說明一下。根據維基百科中的解釋,最小描述長度原則是奧卡姆剃刀原則形式化後的描述,當,其背後的思想是:在任一給定的資料集內的任何規律性都可用來壓縮,也即是在描述資料時,與逐字逐句來描述資料的方式相比,能使用比所需還少的符號,既然如此,總有一種描述方式長度最小,這裡長度用計算機中二進位制的位元位(bit)來表示。

不違反最小描述長度原則,指的是在新增規則後,整個規則集的長度增加不超過一定位元位數,預設是64位。

基於規則的分類

if 條件 then 結論 例子 r if age youth and student yes then buys computer yes 或 r age youth student yes buys computer yes 規則前件 也稱為前提,是由乙個或多個用邏輯連線詞連線的屬性測試組成,r...

備份,基於規則行業分類

1 ids 物業 銀行 建設 化工 保險 2 物流 快遞 租賃 材料 金融 3 汽車 建築 服飾 混凝土 鞋業 4 酒店 木 開發 地產 紡織 5 電子 印刷 電器 家居 置業 6 水泥 鋼鐵 水電 酒業 種植 7 農 裝飾 通訊 玻璃 酒 8 顧問 投資 包裝 電線 電纜 9 地礦 10 vals...

基於概率的分類 貝葉斯分類

分類指 乙個給定的無標籤點的類標籤 貝葉斯分類器使用貝葉斯定理來 使得後驗概率最大的類標籤,主要任務是估計每乙個類的聯合概率密度函式,並通過多元正態分步來建模 令訓練資料集 d 包含 n 個 d 維空間中的點xi 也就是說有n個樣本資料,d個指標 令 yi 表示每個點的類標籤,即最終 的類別,其中y...