分類(classification )是這樣的過程:它找出描述並區分資料類或概念的模型(或函式),以便能夠使用模型**類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型(也常常稱作分類器),該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。
分類和回歸都可用於**,兩者的目的都是從歷史資料紀錄中自動推導出對給定資料的推廣描述,從而能對未來資料進行**。與回歸不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續數值。二者常表現為決策樹的形式,根據資料值從樹根開始搜尋,沿著資料滿足的分支往上走,走到樹葉就能確定類別。
要構造分類器,需要有乙個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是乙個由有關字段(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有乙個類別標記。乙個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1)**準確度;2)計算複雜度;3)模型描述的簡潔度。**準確度是用得最多的一種比較尺度,特別是對於**型分類任務。計算複雜度依賴於具體的實現細節和硬體環境,在資料探勘中,由於操作物件是巨量的資料,因此空間和時間的複雜度問題將是非常重要的乙個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎。
另外要注意的是,分類的效果一般和資料的特點有關,有的資料雜訊大,有的有空缺值,有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合於各種特點的資料
聚類(clustering)是指根據「物以類聚」的原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程。它的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。
當前,聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中乙個非常活躍的研究課題。常見的聚類演算法包括:k-均值聚類演算法、k-中心點聚類演算法、clarans、birch、clique、dbscan等。
分類和聚類的區別
1.分類 在機器學習中,分類是一種有監督的學習,每個訓練資料都已經做好標籤,打上了標記。比如 乙個人是否喜歡玩電腦遊戲的問題。給出的訓練資料的特徵值包含年齡,性別,收入等,並且每條資料都標註上是否喜歡玩電腦遊戲。然後使用構建決策樹模型的相應演算法 id3,c4.5 訓練出分類模型。此過程就是在進行分...
聚類和分類的區別
分類 classification 是這樣的過程 它找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某...
分類和聚類的區別
1.有無監督學習 聚類是無監督學習 分類是有監督學習 2.含義 分類 已知資料集分為幾類每類是什麼,已有分類模型,並不斷訓練分類器,能把待分類的資料對映到預先給定的類別中。用於 性建模 對未來資料類別進行 和描述性建模 利用歷史資料推導出現有資料 聚類 事先不知道資料集的特徵,根據資料之間的相似性通...