聚類就是對大量未知標註的資料集,按資料的內在相似性將資料集劃分為多個類別,使類別內的資料相似度較大
而類別間的資料相似度較小。
無監督
口給定乙個有n個物件的資料集,構造資料的k個簇,ksn。 滿足下列條件:
■每乙個簇 至少包含乙個物件
■每乙個物件屬於 且僅屬於乙個簇
■ 將滿足上述條件的k個簇稱作乙個合理劃分
口基本思想:對於給定的類別數目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬關係,使得每一次改進之
後的劃分方案都較前一次好。
k-means過程
口優點:
■是解決聚類問題的一種經典演算法,簡單、快速
■對處理大資料集,該演算法保持可伸縮性和高效率
■當簇近似為高斯分布時,它的效果較好
口缺點■在簇的平均值可被定義的情況下才能使用,可能不適用於某些應用
■必須事先給出k(要生成的簇的數目),而且對初值敏感,
對於不同的初始值,可能會導致不同結果。
■不適合於發現非凸形狀的簇或者大小差別很大的簇
■對躁聲和孤立點資料敏感
口可作為其他聚類方法的基礎演算法,如譜聚類
機器學習基礎演算法筆記
緒論 接下來我們來看看在機器學習裡面的一些演算法 1.線性回歸 是利用稱為線性回歸方程序的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為簡單回歸,大於乙個自變數情況的叫做多元回歸。線性回歸是回歸分析...
機器學習基礎演算法(一)
簡介 k 近鄰法是一種基本分類與回歸方法。基本原理為 存在乙個已知資料集,每個資料集都存在標籤,輸入沒有標籤的新資料後,將新的資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本最相似資料 最近鄰 的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k 近鄰演算法中k...
機器學習 基礎演算法(三)
三 決策樹的用途例項 分成三類 分別標為紫色,黃色和綠色。它們的資訊熵為0.決策樹對訓練屬於有很好的分類能力,但對 未知的測試資料未必有好的分類能力,泛化能力弱,即可能發生過擬合現象。剪枝 隨機森林 a bootstrap aggregation b 從樣本集中重取樣 有重複的 選出n個樣本 c 在...