面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?
8個積木構成了乙個集合
a,我們記:
a=,每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成
r1=三個大類,那麼所有紅顏色的積木構成集合
x1=,黃顏色的積木構成集合
x2=,蘭顏色的積木是:
x3=。按照顏色這個屬性我們就把積木集合
a進行了乙個劃分(所謂
a的劃分就是指對於
a中的任意乙個元素必然屬於且僅屬於乙個分類),那麼我們就說顏色屬性就是一種知識。在這個例子中我們不難看到,一種對集合
a的劃分就對應著關於
a中元素的乙個知識,假如還有其他的屬性,比如還有形狀
r2=,大小
r3=,這樣加上
r1屬性對
a構成的劃分分別為:
a/r1==,,}
(顏色分類)
a/r2==,,}
(形狀分類)
a/r3==,,}
(大小分類)
上面這些所有的分類合在一起就形成了乙個基本的知識庫。那麼這個基本知識庫能表示什麼概念呢?除了紅的
、大的、三角形的
這樣的概念以外還可以表達例如大的且是三角形的∩=
,大三角∩=
,蘭色的小的圓形(∩
∩=,蘭色的或者中的積木∪=
。而類似這樣的概念可以通過求交運算得到,比如x1與
y1的交就表示紅色的三角。所有的這些能夠用交、並表示的概念以及加上上面的三個基本知識
(a/r1,a/r2.a/r3)
一起就構成了乙個知識系統記為
r=r1∩r2
∩r3,它所決定的所有知識是
a/r=,,,,,,}
以及a/r
中集合的並。
下面考慮近似這個概念。假設給定了乙個
a上的子集合
x=,那麼用我們的知識庫中的知識應該怎樣描述它呢?紅色的三角?
****
的大圓?都不是,無論是單屬性知識還是由幾個知識進行交、並運算合成的知識,都不能得到這個新的集合
x,於是
我們只好用我們已有的知識去近似它。也就是在所有的現有知識裡面找出跟他最像的兩個乙個作為下近似,乙個作為上近似。於是我們選擇了「蘭色的大方塊或者蘭色的小圓形」這個概念:作為x
的下近似。選擇「三角形或者蘭色的」
作為它的上近似,值得注意的是,下近似集是在那些所有的包含於
x的知識庫中的集合中求並得到的,而上近似則是將那些包含
x的知識庫中的集合求並得到的。一般的,我們可以用下面的圖來表示上、下近似的概念。
這其中曲線圍的區域是
x的區域,藍色的內部方框是內部參考訊息,是下近似
,綠的是邊界加上藍色的部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統所構成的所有劃分。
整個粗集理論的核心就是上面說的有關知識、集合的劃分、近似集合等等概念。下面我們討論一下關於粗糙集在資料庫中資料探勘的應用問題。考慮乙個資料庫中的二維表如下:
元素顏色
形狀大小
穩定性
x1 紅三角大
穩定 x2 紅三角大
穩定 x3 黃圓小
不穩定
x4 黃圓小
不穩定
x5 蘭方塊大
穩定 x6 紅圓中
不穩定
x7 蘭圓小
不穩定
x8 蘭方塊中
不穩定
可以看出,這個表就是上面的那個例子的二維**體現,而最後一列是我們的決策屬性,也就是說評價什麼樣的積木穩定。這個表中的每一行表示了類似這樣的資訊:紅色的大三角積木穩定,
****
的小圓形不穩定等等。我們可以把所有的記錄看成是論域
a=,任意乙個列表示乙個屬性構成了對論域的元素上的乙個劃分,在劃分的每乙個類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最後一列的是否穩定?下面我們考慮,對於決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是「穩定」的集合
,它在知識系統
a/r中的上下近似都是
本身,「不穩定」的集合
,在知識系統
a/r中的上下近似也都是
它本身。說明該知識庫能夠對這個概念進行很好的描述。下面考慮是否所有的基本知識:顏色、形狀、大小都是必要的?如果我們把這個集合在知識系統中去掉顏色這個基本知識,那麼知識系統變成
a/(r-r1)=,,,,}
以及這些子集的並集。如果用這個新的知識系統表達「穩定」概念得到上下近似仍舊都是:
,「不穩定」概念的上下近似也還是
,由此看出去掉顏色屬性我們表達穩定性的知識不會有變化,所以說顏色屬性是多餘的可以刪除。如果再考慮是否能去掉大小屬性呢?這個時候知識系統就變為:
a/(r-r1-r3)=a/r2=,,}
。同樣考慮「穩定」在知識系統
a/r2
中的上下近似分別為:
和,已經和原來知識系統中的上下近似不一樣了,同樣考慮「不穩定」的近似表示也變化了,所以刪除屬性「大小」是對知識表示有影響的故而不能去掉。同樣的討論對於「形狀」屬性也一樣,它是不能去掉的。最後我們得到化簡後的知識庫
r2,r3
,從而能得到下面的決策規則:大三角
->
穩定,大方塊
->
穩定,小圓
->
不穩定,中圓
->
不穩定,中方塊
->
不穩定,利用粗集的理論還可以對這些規則進一步化簡得到:大
->
穩定,圓
->
不穩定,中方塊
->
不穩定。這就是上面這個資料表所包含的真正有用的知識,而這些知識都是從資料庫有粗糙集方法自動學習得到的。因此,粗糙集是資料庫中資料探勘的有效方法。
從上面這個例子中我們不難看出,實際上我們只要把這個資料庫輸入進粗糙集運算系統,而不用提供任何先驗的知識,粗糙集演算法就能自動學習出知識來,這正是它能夠廣泛應用的根源所在。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函式。
進入網路資訊時代,隨著計算機技術和網路技術的飛速發展,使得各個行業領域的資訊急劇增加,如何從大量的、雜亂無章的資料中發現潛在的、有價值的、簡潔的知識呢?資料探勘
(data mining)
和知識發現
(kdd)
技術應運而生。
粗糙集理論作為一種資料分析處理理論,在
1982
年由波蘭科學家
z.pawlak
創立。最開始由於語言的問題,該理論創立之初只有東歐國家的一些學者研究和應用它,後來才受到國際上數學界和計算機界的重視。
1991
年,pawlak
出版了《粗糙集—關於資料推理的理論》這本專著,從此粗糙集理論及其應用的研究進入了乙個新的階段,
1992
年關於粗糙集理論的第一屆國際學術會議在波蘭召開。
1995
年acm
將粗糙集理論列為新興的電腦科學的研究課題。
粗糙集理論作為一種處理不精確
(imprecise)
、不一致
(inconsistent)
、不完整
(incomplete)
等各種不完備的資訊有效的工具,一方面得益於他的數學基礎成熟、不需要先驗知識;另一方面在於它的易用性。由於粗糙集理論建立的目的和研究的出發點就是直接對資料進行分析和推理,從中發現隱含的知識,揭示潛在的規律,因此是一種天然的資料探勘或者知識發現方法,它與基於概率論的資料探勘方法、基於模糊理論的資料探勘方法和基於證據理論的資料探勘方法等其他處理不確定性問題理論的方法相比較,最顯著的區別是它不需要提供問題所需處理的資料集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強的互補性
(特別是模糊理論)。
目前,粗糙集理論的研究方向主要是三個方面:
理論上,①利用抽象代數來研究粗糙集代數空間這種特殊的代數結構。②利用拓撲學描述粗糙空間。③還有就是研究粗糙集理論和其他軟計算方法或者人工智慧的方法相接合,例如和模糊理論、神經網路、支援向量機、遺傳演算法等。④針對經典粗糙集理論框架的侷限性,拓寬粗糙集理論的框架,將建立在等價關係的經典粗糙集理論拓展到相似關係甚至一般關係上的粗糙集理論。
應用上,粗糙集理論在許多領域得到了應用,①臨床醫療診斷;②電力系統和其他工業過程故障診斷;③**與控制;④模式識別與分類;⑤機器學習和資料探勘;
⑥影象處理;⑦其他。
演算法上,一方面研究了粗糙集理論屬性約簡演算法和規則提取啟發式演算法,例如基於屬性重要性、基於資訊度量的啟發式演算法,另一方面研究和其他智慧型演算法的結合,比如:和神經網路的結合,利用粗糙集理論進行資料預處理,以提高神經網路收斂速度;和支援向量機
svm結合
;和遺傳演算法結合;特別是和模糊理論結合,取得許多豐碩的成果,粗糙理論理論和模糊理論雖然兩者都是描述集合的不確定性的理論,但是模糊理論側重的是描述集合內部元素的不確定性,而粗糙集理論側重描述的是集合之間的不確定性,兩者互不矛盾,互補性很強,是當前國內外研究的乙個熱點之一。
粗糙集理論介紹
粗糙集理論介紹 面對日益增長的資料庫,人們將如何從這些浩瀚的資料中找出有用的知識?我們如何將所學到的知識去粗取精?什麼是對事物的粗線條描述什麼是細線條描述?a r1 顏色分類 a r2 形狀分類 a r3 大小分類 上面這些所有的分類合在一起就形成了乙個基本的知識庫。那麼這個基本知識庫能表示什麼概念...
粗糙集基本理論
此方法基於粗糙集理論,對於粗糙集方面的知識,請參考這篇部落格 該部落格已經很好講了粗糙集的基本知識,我這裡就不重複了,請你反覆確認是否已經明白了下近似和上近似的概念。說白了,乙個屬性上的等價類集合 即劃分 就是關於這個屬性的知識,而其中的乙個等價類就是乙個概念,可以結合上面部落格中關於顏色知識的例子...
粗糙集分類
粗糙集理論 粗糙集理論 rough set theory 是乙個種處理資料分類的資料探勘方法。當資料屬於定性資料或不確定性資料,無法使用一般的統計方法時,粗糙集理論可以在資訊不完整和資訊不一致下,用來規約資料集合,發掘隱藏的資料陽性和資料相關性,以產生有用的分類規則。粗糙集理論現在主要應用在 臨床醫...