KNN,TC text category 基本演算法

2021-04-12 13:17:29 字數 782 閱讀 7573

knn分類演算法 knn分類演算法是一種傳統的基於統計的模式識別方法。演算法思想很簡單:對於一篇待分類文件,系統在訓練集中找到k個最相近的鄰居,使用這k個鄰居的類別為該文件的候選類別。該文件與k個鄰居之間的相似度按類別分別求和,減去乙個預先得到的截尾閾值,就得到該文件的類別測度。用knn也表示所選k個最相近文件的集合,公式(11-9)刻畫了上述思想[yang and liu,1999]。

其中,x為一篇待分類網頁的向量表示;di為訓練集中的一篇例項網頁的向量表示;cj為一類別;(當d屬於c}1,0{),(∈jicdyj時取1;當不屬於cdj時取0);bj為預先計算得到的cj的最優截尾閾值;為待分類網頁與網頁例項之間的相似度,由文件間的余弦相似度公式(11-10)計算得到:

knn演算法本身簡單有效,它是一種lazy-learning演算法,分類器不需要使用訓練集進行訓練,訓練時間複雜度為0。knn分類的計算複雜度和訓練集中的文件數目成正比,也就是說,如果訓練集中文件總數為n,那麼knn的分類時間複雜度為o(n)。 

knn需要人工分類一部分資料,例如代分類總數為4,則必須為每個分類尋找足夠的樣本,每個樣本有人工分類。對於某個代分類文件,隨機抽取n個鄰居,n的計算需要實際測試,選取合時的值,利用文件和這些鄰居的相似關係,以及鄰居的分類資訊,得到該類的分類資訊,尋找最大可能性的分類.

ASC超算競賽及基本思路

目錄 設計超算集群 看參考文獻做設計 對超算集群進行效能測試 一般來講的測試工具就是用hpl,找到最適合的引數,達到最優秀的計算能力 數字影象處理 通常 量較大,優化較為困難,優化偏重於編譯引數,執行引數和數學庫blas的重新鏈結,對於熱點可以考慮並行 讀寫 演算法 氣候 這個需要做的就是優化 目的...

日常練習 算

問題背景 zhx幫他妹子做數學題。問題描述 求 如 n 3,m 3,這個值為1 1 1 2 1 3 2 1 2 2 2 3 3 1 3 2 3 3 56。輸入格式 僅一行,包含兩個數 n和 m.輸出格式 僅一行,包含所求的答案 mod10 9 7的值。樣例輸入 3 3 樣例輸出 資料範圍與規定 對於...

遞迴算年齡

問題描述1 第1個人10歲,第2個人比第乙個人大3歲,第3個人比第2個人大3歲 第8個人比第7個人大3歲,那麼第8個人是多少歲?public class getage 測試 public static void main string args 問題描述2 第8個人的年齡是36歲,第7個人比第8個人...