基本概念
規則學習概念:機器學習中的規則(rule)通常是指語義明確、能描述資料分布所隱含的客觀規律或領域概念、可寫成"若…則…"形式的邏輯規則。規則學習(rulelearning)是從訓練資料中學習出一組能用於對未見示例進行判別的規則。
形式化定義規則
規則衝突
衝突定義:乙個示例被判別結果不同的多條規則覆蓋;
解決方法:
規則分類
一階規則比(邏輯規則)強很多,能表達複雜的關係,稱為關係型規則,其語義層面與人類的語義層面一致。
序貫覆蓋
規則學習的目標:引數乙個能覆蓋盡可能多的樣例的規則集,最直接的方法「序貫覆蓋」(逐條歸納):在訓練集上每學到一條規則,就將該規則覆蓋的訓練樣例去除,然後以剩下的訓練樣例組成訓練集重複上述過程。由於每次只處理一部分資料,因此也稱為分治(separate-and-conquer)策略。
關鍵:如何從訓練集學出單條規則
學習規則的方法
自頂向下
自底向上
評價規則優劣的標準(根據具體任務情況設計適當的標準):
剪枝優化
規則生成本質上是乙個貪心搜尋過程,需要一定的機制來緩解過擬合的風險,最常見的做法是剪枝(pruning)。
預剪枝:剪枝可發生在規則生長過程中;
後剪枝:也可發生在規則產生後;
通常是基於某種效能度量指標來評估增/刪邏輯文字前後的規則效能,或增/刪規則前後的規則集效能,從而判斷是否要進行剪枝。
統計顯著性檢驗
後剪枝
irep(incremental rep)
ripper(預剪枝+後處理優化)
一階規則學習
命題規則學習的缺陷:難以處理物件之間的關係。
引入領域知識
first-order inductive learner(foil)
udev 規則學習
action add kernel sd a z 0 9 run bin umount l media usb k action add kernel sd a z 0 9 run bin rm fr media usb k action add kernel sd a z run bin umou...
haccess規則學習
rewriteengine on rewritecond mozilla 5 0.rewriterule index.php index.m.php rewritecond lynx.rewriterule index.php index.l.php rewriterule index.php in...
機器學習 規則學習
f1 f 2 fl 一階規則比 邏輯規則?強很多,能表達複雜的關係,稱為關係型規則,其語義層面與人類的語義層面一致。如何從訓練集學出單條規則 從空規則開始,將正例類別作為規則頭,逐個遍歷訓練集中的每個屬性及取值。在屬性和候選值較多時會存在組合 的問題。cn2 似然率統計量lrs lrs 2 m lo...