粗糙集理論
粗糙集理論(rough set theory)是乙個種處理資料分類的資料探勘方法。當資料屬於定性資料或不確定性資料,無法使用一般的統計方法時,粗糙集理論可以在資訊不完整和資訊不一致下,用來規約資料集合,發掘隱藏的資料陽性和資料相關性,以產生有用的分類規則。
粗糙集理論現在主要應用在①臨床醫療診斷;②電力系統和其他工業過程故障診斷;③**與控制;④模式識別與分類;⑤機器學習和資料探勘; ⑥影象處理等方面。
粗糙集理論產生的分類規則:
可以從訓練資料集中,應用粗糙集理論與支援度門檻產生候選規則,並利用測試資料集計算候選規則的置信度和增益,以驗證提取之候選規則作為最終的分類規則。
在建立候選規則之前,以隨機的方式將決策表分成兩組:a%的資料視為訓練資料組;1-a%的資料視為測試資料組。產生分類規則的步驟如下:
定義候選規則所需之支援度門檻值θ。
建立決策表與資料集。
若遇到屬性為連續型屬性,則需要經過離散化,將連續型資料分為區間,否則直接進入步驟(4)
取得訓練組資料集的簡化(reducts)
根據領域專業知識判定於步驟(4)所產生的reducts是否合適。
根據篩選後所剩下的reducts組而找到規則
輸入所有訓練資料集,並計算所有產生規則的支援度。若該規則支援度大於門檻值θ,則應將該規則放入候選集合中;若該規則的支援度小於門檻值θ,則移除該規則。
直到所有規則均完成支援度門檻值的校驗後,即可停止產生規則,並與領域專家討論,提出不符合實務的候選規則。
接著使用測驗資料組驗證中訓練資料所取得的候選規則,並以置信度與增益作為應選候選規則的門檻值。步驟如下:
設定置信度與增益門檻值,分別為θ1和θ2.
輸入所有測試資料集,以計算各候選規則的置信度與增益。
若置信度大於門檻值θ1,且增益大於門檻值,則此候選規則將通過測試,並作為最終分類規則;若改規則的置信度小於門檻值θ2,則移除該候選規則。
直到所有候選規則均完成置信度與增益的檢驗後,即完成產生分類規則的步驟,再與領域專家確認規則意義。
粗糙集理論介紹
粗糙集理論介紹 面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?a r1 顏色分類 a r2 形狀分類 a r3 大小分類 上面這些所有的分類合在一起就形成了乙個基本的知識庫。那麼這個基本知識庫能表示什麼概念...
粗糙集基本理論
此方法基於粗糙集理論,對於粗糙集方面的知識,請參考這篇部落格 該部落格已經很好講了粗糙集的基本知識,我這裡就不重複了,請你反覆確認是否已經明白了下近似和上近似的概念。說白了,乙個屬性上的等價類集合 即劃分 就是關於這個屬性的知識,而其中的乙個等價類就是乙個概念,可以結合上面部落格中關於顏色知識的例子...
粗糙集理論介紹 概念入門
面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?8個積木構成了乙個集合 a,我們記 a 每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成 r1 三個大類,那麼所有紅顏色的積木構成集合 x1 黃顏...