1.資料探勘的主要任務:
描述資料,發現特點、模式、規律 eg聚類
**2大資料:不僅僅是指大量的資料、也指高維的資料。
3.給了乙個**:www.mmds.org 上面有書的pdf和ppt,具體課程怎麼看還未探索
4.聚類
聚類的目標:就是區分相似與不相似,不相似的分開,相似的組隊,這樣乙個過程。 啟:遇到相似,可想到聚類的方法
作用:更好的理解資料集的特點
聚類本身就是自然分為幾類的資料打亂後讓其恢復的演算法,所以可以利用這一點,判斷所聚的類是否合適
一、簇的密度 二、平均直徑(每個簇的直徑平均值)
5.維數災難
|ab| = √[(x₁-x₂)²+(y₁-y₂)²],如果維數足夠多,根號內項數就會足夠多,整體都趨近與無窮。不同點之間距離都往無窮跑,無法衡量
從余弦距離入手,兩向量余弦值=(兩向量的內積)/各自的模。
同樣假定抽取隨機向量,分子:兩向量的內積是隨機值之和趨向於0。分母:各自的模趨向無窮。整體:趨向於0即余弦值趨向於0
角度趨向90度
6.層次聚類
取距離最小的兩點作為一類 理解:距離越小越相似
如何代表乙個簇間的距離,eg、簇的質心間距離...資料探勘書 p195頁
【】像層次聚類這種所有點合併過程中形成樹的過程,很有實際意義。eg:衡量基因的相似度--樹型反應物種的進化過程
資料探勘 聚類
將現實世界的問題進行資料建模 mathlab 什麼是聚類分析 類似於 乙個同學是乙個資料,這乙個寢室的同學可以是乙個簇,不同的寢室是不同的簇,錯誤的,這個是劃分,聚類的甄別沒有準確的定則 簇內 同乙個寢室同學距離點小,一定比兩個不同的簇之間的兩個點直接距離小。與劃分不同點,他是有意義的 兩個簇的對小...
資料探勘(五) 聚類
聚類是資料探勘描述任務的乙個重要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件劃分為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從這個簡單的描述中,可以看出聚類的關鍵是如何度量物件間的相似性...
Python資料探勘 聚類
聚類 屬於無監督學習範疇 聚類 將無標籤資料聚成若干類 聚類方法的種類 kmeans聚類 和 dbscan密度聚類 呼叫時的區別 kmeans需要指定簇的個數 dbscan需要指定簇的個數。內部原理的區別 極簡描述 kmeans 隨機生成k個簇中心 每個資料點與其最近的簇中心連線 更新k個簇中心 同...