粗糙集理論介紹
面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?
a/r1==,,} (顏色分類)
a/r2==,,} (形狀分類)
a/r3==,,} (大小分類)
上面這些所有的分類合在一起就形成了乙個基本的知識庫。那麼這個基本知識庫能表示什麼概念呢?除了紅的、大的、三角形的這樣的概念以外還可以表達例如大的且是三角形的∩=,大三角∩=,蘭色的小的圓形(∩∩=,蘭色的或者中的積木∪=。而類似這樣的概念可以通過求交運算得到,比如x1與y1的交就表示紅色的三角。所有的這些能夠用交、並表示的概念以及加上上面的三個基本知識(a/r1,a/r2.a/r3)一起就構成了乙個知識系統記為r=r1∩r2∩r3,它所決定的所有知識是a/r=,,,,,,}以及a/r中集合的並。
下面考慮近似這個概念。假設給定了乙個a上的子集合x=,那麼用我們的知識庫中的知識應該怎樣描述它呢?紅色的三角?****的大圓?都不是,無論是單屬性知識還是由幾個知識進行交、並運算合成的知識,都不能得到這個新的集合x,於是 我們只好用我們已有的知識去近似它。也就是在所有的現有知識裡面找出跟他最像的兩個乙個作為下近似,乙個作為上近似。於是我們選擇了「蘭色的大方塊或者蘭色的小圓形」這個概念:作為x的下近似。選擇「三角形或者蘭色的」作為它的上近似,值得注意的是,下近似集是在那些所有的包含於x的知識庫中的集合中求並得到的,而上近似則是將那些包含x的知識庫中的集合求並得到的。一般的,我們可以用下面的圖來表示上、下近似的概念。
這其中曲線圍的區域是x的區域,藍色的內部方框是內部參考訊息,是下近似 ,綠的是邊界加上藍色的部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統所構成的所有劃分。
整個粗集理論的核心就是上面說的有關知識、集合的劃分、近似集合等等概念。下面我們討論一下關於粗糙集在資料庫中資料探勘的應用問題。考慮乙個資料庫中的二維表如下:
元素 顏色 形狀 大小 穩定性
x1 紅 三角 大 穩定
x2 紅 三角 大 穩定
x3 黃 圓 小 不穩定
x4 黃 圓 小 不穩定
x5 蘭 方塊 大 穩定
x6 紅 圓 中 不穩定
x7 蘭 圓 小 不穩定
x8 蘭 方塊 中 不穩定
可以看出,這個表就是上面的那個例子的二維**體現,而最後一列是我們的決策屬性,也就是說評價什麼樣的積木穩定。這個表中的每一行表示了類似這樣的資訊:紅色的大三角積木穩定,****的小圓形不穩定等等。我們可以把所有的記錄看成是論域a=,任意乙個列表示乙個屬性構成了對論域的元素上的乙個劃分,在劃分的每乙個類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最後一列的是否穩定?下面我們考慮,對於決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是「穩定」的集合,它在知識系統a/r中的上下近似都是本身,「不穩定」的集合,在知識系統a/r中的上下近似也都是它本身。說明該知識庫能夠對這個概念進行很好的描述。下面考慮是否所有的基本知識:顏色、形狀、大小都是必要的?如果我們把這個集合在知識系統中去掉顏色這個基本知識,那麼知識系統變成a/(r-r1)=,,,,}以及這些子集的並集。如果用這個新的知識系統表達「穩定」概念得到上下近似仍舊都是:,「不穩定」概念的上下近似也還是,由此看出去掉顏色屬性我們表達穩定性的知識不會有變化,所以說顏色屬性是多餘的可以刪除。如果再考慮是否能去掉大小屬性呢?這個時候知識系統就變為:
a/(r-r1-r3)=a/r2=,,}。同樣考慮「穩定」在知識系統a/r2中的上下近似分別為:和,已經和原來知識系統中的上下近似不一樣了,同樣考慮「不穩定」的近似表示也變化了,所以刪除屬性「大小」是對知識表示有影響的故而不能去掉。同樣的討論對於「形狀」屬性也一樣,它是不能去掉的。最後我們得到化簡後的知識庫r2,r3,從而能得到下面的決策規則:大三角->穩定,大方塊->穩定,小圓->不穩定,中圓->不穩定,中方塊->不穩定,利用粗集的理論還可以對這些規則進一步化簡得到:大->穩定,圓->不穩定,中方塊->不穩定。這就是上面這個資料表所包含的真正有用的知識,而這些知識都是從資料庫有粗糙集方法自動學習得到的。因此,粗糙集是資料庫中資料探勘的有效方法。
從上面這個例子中我們不難看出,實際上我們只要把這個資料庫輸入進粗糙集運算系統,而不用提供任何先驗的知識,粗糙集演算法就能自動學習出知識來,這正是它能夠廣泛應用的根源所在。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函式。
目前,粗糙集理論已經廣泛的應用於知識發現、資料探勘、智慧型決策、電子控制等多個領域
粗糙集理論介紹 概念入門
面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?8個積木構成了乙個集合 a,我們記 a 每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成 r1 三個大類,那麼所有紅顏色的積木構成集合 x1 黃顏...
粗糙集基本理論
此方法基於粗糙集理論,對於粗糙集方面的知識,請參考這篇部落格 該部落格已經很好講了粗糙集的基本知識,我這裡就不重複了,請你反覆確認是否已經明白了下近似和上近似的概念。說白了,乙個屬性上的等價類集合 即劃分 就是關於這個屬性的知識,而其中的乙個等價類就是乙個概念,可以結合上面部落格中關於顏色知識的例子...
粗糙集分類
粗糙集理論 粗糙集理論 rough set theory 是乙個種處理資料分類的資料探勘方法。當資料屬於定性資料或不確定性資料,無法使用一般的統計方法時,粗糙集理論可以在資訊不完整和資訊不一致下,用來規約資料集合,發掘隱藏的資料陽性和資料相關性,以產生有用的分類規則。粗糙集理論現在主要應用在 臨床醫...