a. kmeans
kmeans的損失函式,是假設每個簇符合方差相等的球星高斯分布,然後極大化似然概率,最小化負對數;
正因為各個簇的方差相同,所以預處理必須將資料各個維度歸一化,否則方差最大的維度對聚類結果會有絕對影響。
以最小化損失函式l為目的:聚類中心不動,找每個樣本最近的那個中心做他的類別,是為了最小化l; 所有樣本的類別確定了,找最優的聚類中心,也是為了最小化l;
受初值和離群點影響大:初值,可以用kmeans++這樣,後面的每個聚類中心都按離前面已定了的聚類中心的距離和,越大則選中概率越小;離群點:預處理過濾,或者用中位數做聚類中心(相當於把損失函式裡的l2距離變成了l1距離);
易收斂到區域性最優解(一般情況下,區域性最優也夠用了)
k(聚類個數)的選擇:elbow法,橫軸是k,縱軸是聚類誤差,誤差下降變平緩那點,可選做k;
自動選k: 同樣是k個類個樣本,隨機生成的n個樣本聚類損失,減去真實的n個樣本的聚類損失,得到的"k-損失delta"曲線,在最高點處的k,可選做k;
收斂性證明,和em演算法乙個套路,先寫出極大似然的式子,然後找它的下限函式,找到乙個q分布讓原式子等於下限函式,然後最優化下限函式,依次迭代;
q等於p時,下限函式等於原函式;kmeans上此時q只有1個維度為1,其餘為0;把q帶入下限函式式子,化簡;
b. 高斯混合模型(gmm)
每個樣本是由1個mixture生成的;
p(x|引數) = 所有類別z之和_ = 所有類別z之和_;所謂mixutre的「權重」嚴格意義上是該mixture的先驗概率p(z|引數)
計算e步時,q(z|x,引數)=p(z|x,引數)=p(z,x|引數)/p(x,引數), 分母消掉,=p(z,x|引數)=p(x|z,引數)*p(z|引數),前項似然函式套用高斯函式即可,後項先驗概率是模型引數;
em演算法可以得到樣本屬於每一類的概率是多少(可用於分類,gesture分類器專案用的就是這個!)
c. 評估
kmeans聚類:聚類為球形分布,適合誤差平方和做評估;密度聚類:聚類不規則或球形纏繞,誤差平方和會失效;
先確定k,再評估質量
輪廓係數:點p到自己cluster其他點的平均距離越小,越好;點p到其他cluster所有點平均距離裡最小的乙個cluster的平均距離越大,越好;
均方根標準偏差(rmsstd): 所有樣本到自己cluster中心的l2平方和,除以樣本個數,除以維度數,開方;越小越好;
r方: 所有樣本到自己cluster中心的誤差平方和越小越好,把所有樣本看成乙個cluster時的誤差平方和(也就是方差)越大越好;
人工構造不同種類的資料集,考察聚類演算法的應對好壞:
1. 觀察聚類誤差是否隨聚類類別數量的變化而單調製化;
2. 觀察離群點對聚類結果的影響;
3. 觀察近鄰資料團會不會被分到不同的cluster裡;
4. 觀察大團和小團差異明顯時,聚類效果;
5. 觀察樣本團裡的樣本數量具有較大差異時,聚類效果;
監督學習和非監督學習
重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...
監督學習和非監督學習
監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...
監督學習和無監督學習 監督學習與非監督學習
監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...