馬上就要找工作了,把自己學習使用過的常用機器學習演算法整理出來,權當做筆記了。先從簡單的演算法開始吧,首先是k近鄰。
k近鄰簡單、直觀:給定乙個訓練樣本集,對於新的輸入例項,在訓練資料集中找到與該例項最臨近的
k個例項,這
k個例項中的多數屬於某個類,就把該輸入樣例分為這個類。演算法
三要素:k值選擇、距離度量、分類決策規則
實現方法:
最簡單:線性掃瞄,計算每個訓練樣本和輸入例項的距離,訓練集很大時,計算耗時
可以採用特殊的結構儲存訓練資料,kd樹,提公升演算法效率
knn演算法的優點:
1. 思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;
2. 可用於非線性分類;
3. 訓練時間複雜度為
o(n);
4. 準確度高,對資料沒有假設,對
outlier
不敏感;
缺點:
1. 計算量大;
2. 樣本不平衡問題(即有些類別的樣本數量很多,而其它樣本的數量很少);
3. 需要大量的記憶體;
再說下無監督聚類,聚類屬於無監督學習,以往的上面的knn都是有類別標籤y的,也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y,只有特徵x,比如假設宇宙中的星星可以表示成三維空間中的點集
在聚類問題中,給我們的訓練樣本是
k-means演算法是將樣本聚類成k個簇(cluster),具體演算法描述如下:
1、 隨機選取k個聚類質心點(cluster centroids)為
2、 重複下面過程直到收斂
k是我們事先給定的聚類數,
下一步總結一下線性回歸演算法!
常用機器學習演算法
1 演算法學習 監督式 非監督式 半監督式 1 監督式學習 工作機制 這個演算法由乙個目標變數或結果變數 或因變數 組成。這些變數由已知的一系列預示變數 自變數 而來。利用這一系列變數,我們生成乙個將輸入值對映到期望輸出值的函式。這個訓練過程會一直持續,直到模型在訓練資料上獲得期望的精確度。監督式學...
常用的機器學習演算法總結
一 線性回歸 1 核心思想 這可能是機器學習中最簡單的演算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸演算法。因此,當你需要 乙個正在執行的過程未來的值時,你可以使用回歸演算法。然而,當特徵冗餘,即如果存在多重共線性 multicollinearity 時,線性回歸就不太穩定。...
python 常用機器學習演算法 KNN
knn 演算法核心 defknnclassify0 inx,dataset,labels,k inx 待分類向量 dataset 樣本資料 labels 標籤類別k值 前k個最近鄰居 datasetsize dataset.shape 0 diffmat tile inx,datasetsize,1...