knn(k 最近鄰居)演算法
該演算法的基本思路是:在給定新文字後,考慮在訓練文字集中與該新文字距離最近(最相似)的 k 篇文字,根據這 k 篇文字所屬的類別判定新文字所屬的類別,具體的演算法步驟如下:
step one:根據特徵項集合重新描述訓練文字向量
step two:在新文字到達後,根據特徵詞分詞新文字,確定新文字的向量表示
step three:在訓練文字集中選出與新文字最相似的 k 個文字,計算公式為:
其中,k 值的確定目前沒有很好的方法,一般採用先定乙個初始值,然後根據實驗測試的結果調整 k 值,一般初始值定為幾百到幾千之間。
step four:在新文字的 k 個鄰居中,依次計算每類的權重,計算公式如下:
其中, 為新文字的特徵向量, 為相似度計算公式,與上一步驟的計算公式相同,而 為類別屬性函式,即,如果 屬於類 ,那麼函式值為 1,否則為 0。
step five:比較類的權重,將文字分到權重最大的那個類別中。
除此以外,支援向量機和神經網路演算法在文字分類系統中應用得也較為廣泛,支援向量機的基本思想是使用簡單的線形分類器劃分樣本空間。對於在當前特徵空間中線形不可分的模式,則使用乙個核函式把樣本對映到乙個高維空間中,使得樣本能夠線形可分。
而神經網路演算法採用感知演算法進行分類。在這種模型中,分類知識被隱式地儲存在連線的權值上,使用迭代演算法來確定權值向量。當網路輸出判別正確時,權值向量保持不變,否則進行增加或降低的調整,因此也稱為獎懲法。
機器學習 KNN演算法基本思想
knn演算法 k近鄰演算法 k nearest neighbors 如下圖所示,用腫瘤的大小表示橫座標,時間表示中座標,其中紅色表示良性腫瘤,藍色表示惡性腫瘤。根據下圖能夠得到8個點的初始資訊。假如此時出現了第9個點,它的落點在第7個點和第8個點之間,怎麼判斷它的屬性是良性還是惡性呢?在knn的演算...
MVP基本思想
mvp的邏輯性思維都在p層,他降低了頁面的耦合度,具備低耦合的特性,mvp的出現使 更具邏輯性 首先我們看到分包的嚴謹性 mvp的結構分析 p層負責整體邏輯並且將m層和v層聯絡起來,m層主要負責 塊,callback將結果集返回p層,v層最後展示檢視 注意以下介面 public inte ce my...
git基本思想
git相比叫傳統的基於檔案svn優勢明顯,主要體現在天然分布式不怕丟失 不以檔案為為基礎,基於git的資料庫 commit雜湊健值檔案 的版本管理,分支 標籤等操作飛速,而不是緩慢地檔案和目錄操作 git下每個人都有乙個獨特的工作區和分支,不必實時和中心伺服器同步就可以 帶有社交性質的基於fork ...