支援向量機(support vector machine,svm)是機器學習中最為流行的監督學習方法。該方法仍被廣泛的應用於資料探勘產業。使用支援向量機方法時,它會在每類資料中尋找與其他類最接近的資料,並將其標記為標準。決策邊界就通過這些標準定義,這樣每個標記資料與邊界的歐幾里得距離之和最大。這些標記資料被稱為支援向量(support vector)。簡而言之,支援向量機講決策邊界放在了中位置,使得每種模式到其的距離都是最遠的。因此支援向量機也被成為最大距離法。
真正讓支援向量機最有價值的是一種數學方法,被稱為核方法,或者核技巧。它的作用在於講低維資料對映為高維資料,因此一些在低維資料當中不好進行線性分割的資料,對映為高維資料的時候就可以使用一些線性方法決定決策邊界。
因為支援向量機的方法往往依賴於核方法的使用,所以通常情況下他的計算量都會很大。因此在使用支援向量機時,隨著計算複雜度的增加,它所消耗的時間也會迅速增加。
隱馬爾可夫模型(hidden markov model,hmm)是一種無監督的訓練方法,它的假設所有的資料都是遵循馬可夫過程(markov process)。馬可夫過程是一種隨機過程,它假設未來狀態只與當前值相關,而與過去的狀態無關。隱馬爾可夫模型主要用於**只有乙個可觀察序列可見時,該觀察物件可能的狀態。
隱馬爾克夫可以用於生物資訊領域和一些需要時間序列模式的領域,譬如自然語言處理的語法分析,或者是聲音頻號處理。
神經網路與傳統的機器學習方法略有不同。雖然其他的機器學習演算法都採用基於概率或者統計的方式,神經網路卻獨闢蹊徑,採用了完全不同的方式,他試圖模擬人類大腦的結構。人類大腦都是由神經元網路組成的。
乙個神經元通過另乙個神經元連線網路的時候,它從突觸接受電訊號的刺激。當電位超過某乙個值得時候,神經元就被啟用,將電刺激傳給下乙個神經元。
神經網路剛出現的時候是一種監督學習演算法,它以數字表示收到電訊號的刺激。最近尤其是深度學習出現之後,湧現了各種各樣的神經網路演算法,其中相當一部分都是無監督學習演算法。通過在學習中不斷調整網路的權重,這些演算法提公升了他們**的準確度。深度學習是一種基於神經網路的演算法。
邏輯回歸(logistic regression)是變數服從伯努利分布的一種統計回歸模型。不同於支援向量機和神經網路都是分類模型,邏輯回歸是一種回歸模型,不過他也是一種監督學習方法。雖然邏輯回歸並不是神經網路,但從數學解釋上看,它可以被看做一種神經網路。我們在後面的內容也會介紹邏輯回歸的細節,並提供其實現。
很有代表性的sql
union all 外連線 相同的資料不覆蓋,展示所有資料 select sid,sum num from select sid,round count sid 2 as num from f pile where manufacture 深圳盛弘 group by sid union all se...
代表性直覺 不要被細節迷惑
當我們進行決策或者是判斷的時候,有時候會直接運用 直覺 或一般性常識進行決策。這種方式的優點是省時省力,而且有的時候我們只是需要乙個粗略的答案就夠了,所以一拍腦袋就作出決定,比較美,可以得到乙個相對滿意的答案 即使答案錯了,我們也會有自我保護機制來逃避決策失敗帶來悔恨的方法 既然有利,必然有弊,這種...
Spark學習 1 代表性大資料技術
本篇部落格是學習子雨大資料之spark入門教程的學習筆記,僅作學習之用。開源谷歌gfs,利用mapreduce分布式並行程式設計,mapreduce和hdfs是hadoop的兩大核心。資料倉儲,借助底層hdfs和hbase完成儲存,接受使用者的sql語句,轉換為mapreduce程式進行查詢,避免了...