答:
(1)資料預處理,如歸一化、離群點處理
(2)隨機選取k個簇中心,記為u1,u2.。。。。uk
(3)定義代價函式:
(4)令t=0,1,2.。。。為迭代步數。重複下面的過程指導j收斂
對於每個樣本x,將其分配到最近的簇。
對於每乙個類簇,重新計算該類簇的中心。
答:受初值和離群點的影響每次的結果不穩定、結果通常不是全域性最優而是區域性最優解、無法很好地解決資料簇分布差別比較大的情況,不太適用於離散分類。優點是,計算複雜度接近線性。
調優方法
(1)資料歸一化和離群點處理
(2)合理選擇k值;手肘法、gap statistic
(3)採用核函式
答:k均值演算法的主要缺點如下。
(1)需要人工預先確定k值,且該值和真實資料分布未必吻合
(2)k均值只能收斂到區域性最優,效果受到初始值影響
(3)易受到噪點的影響
(4)樣本點只能被劃分到單一的類中
改進的模型:
(1)k-means++ 演算法
(2)isodata演算法
當屬於某個類別的樣本過少時,去除該類別。當屬於某個樣本的類別的樣本過多、分散度較大時,把該類別分為兩個子類別。
答:k均值聚類的迭代演算法實際上是一種最大期望演算法,簡稱em演算法。em演算法解決的是在概率模型中含有無法觀測的隱含變數情況下的引數估計問題。
監督學習和非監督學習
重新看一遍ng的機器學習課程,第一次寫讀書筆記,希望能夠堅持下來!對於監督學習,首先來看乙個例子,如下圖.圖中的資料來自r語言中的boston資料集,其中lstat軸表示地位較低的人口比重,medv軸表示median value of owner occupied homes in 1000s。如果...
監督學習和非監督學習
監督學習 監督學習就是分類,把人們已經處理好的訓練樣本 即已知資料和對應輸出 給計算機,計算機通過規律訓練出乙個最佳模型,再用這個模型對輸入的資料進行分類,得出對應的輸出。從而使計算機具有對未知資料進行分類的功能。特點 目標明確 需要帶標籤的訓練樣本 分類效果很容易評估 非監督學習 非監督學習沒有訓...
監督學習和無監督學習 監督學習與非監督學習
監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...