支援向量機(support vector machine, svm)的基本模型是在特徵空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。
兩條線哪乙個分的更好。使點到線段距離最大。(藍線到最近的距離點太小,會造成誤差)
2.核函式的作用就是隱含著乙個從低維空間向高維空間的對映關係,這樣就使得在低維空間中線性不可分的兩類點在高維空間中線性可分。
3.k均值聚類
聚類是對點集進行考察並按照某種距離測度將他們聚成多個「簇」的過程。聚類的目標是使得同一簇內的點之間的距離較短,而不同簇中點之間的距離較大。
kmeans演算法是乙個重複移動類中心點的過程,把簇的中心點,也稱重心(centroids),移動到其包含成員的平均位置,然後重新劃分其內部成員。
建立k個作為起始質心(通常是隨機選擇)
當任意乙個點的簇分配結果發生改變時
對資料集中的每個資料點
對每個質心
計算質心與資料點之間的距離
將資料點分配到距離其最近的簇
對每乙個簇,計算簇中所有點的均值並將均值作為質心
4.層次聚類
聚類演算法之層次聚類演算法和應用舉例
1.假設有n個待聚類的樣本,對於層次聚類來說,步驟:
1、(初始化)把每個樣本歸為一類,計算每兩個類之間的距離,也就是樣本與樣本之間的相似度;
2、尋找各個類之間最近的兩個類,把他們歸為一類(這樣類的總數就少了乙個);
3、重新計算新生成的這個類與各個舊類之間的相似度;
4、重複2和3直到所有樣本點都歸為一類,結束
機器學習1 0
定義 如果某電腦程式在t任務中的效能 由p衡量 隨著經驗e的提高而提高,則可以說它是從經驗e中學習有關某類任務t和效能度量p的。簡單的來說 打個比方 玩跳棋。e 玩許多跳棋遊戲的經驗 t 扮演跳棋的任務。p 程式將贏得下一場比賽的概率。通常,可以將任何機器學習問題分配給以下兩種廣泛的分類之一 監督學...
機器學習(10) 推薦系統
估計這章內容後面來的概率也比較低吧,學到一點思想,但畢竟現在推薦系統作為企業超看重的部分,發展較好,這些內容是不夠的,太入門了 推薦系統能領悟特徵學習的思想,不需要手動建立特徵 未防止後面看不懂,這裡做個說明 nu表示 使用者數量,nm表示電影數量,r i,j 1表示使用者j看過電影i,y i,j ...
1 0 機器學習所需的數學
從大學到現在,課堂上學的和自學的數學其實不算少了,可是在研究的過程中總是發現需要補充新的數學知識。learning和vision都是很多種數學的交匯場。看著不同的理論體系的交匯,對於乙個researcher來說,往往是非常exciting的enjoyable的事情。不過,這也代表著要充分了解這個領域...