下面進入主題:
在搜尋引擎中,乙個詞能夠概括這篇文章意思的能力越高,權重就越高,反之則降低,舉個例子吧,類似於這樣的乙個詞:「吸菸的危害」,在這個詞裡面,吸菸是整個文章的乙個主詞,也就是說,吸菸這個詞是整篇文章的核心,而「危害」這個詞卻能表達很多危害,例如環境汙染危害,破壞公物的危害等。剩下的乙個詞「的」在整個句子裡根本就沒有任何意義,這樣一來,我們的權重問題就可以看的很明白了,具體的權重大小就如下這樣
吸菸》危害》的,而「的」這個詞因為不包含任何意義,所以,一般情況下,搜尋引擎的計算規則中會講「的」這個詞消噪(這點純屬個人看法,請高手指教。)
我們可以看到的是,有些詞,只要你搜尋一下,馬上就會得出結果,例如吸菸 危害這樣的詞,而「的」這個詞雖然存在於幾乎所有的網頁中,卻根本不能反應出任何意義,這樣一來他的權重就少的可憐了,這就是搜尋引擎中的:「逆文字頻率指數」(inverse document frequency 縮寫為idf)他的計算公式是這樣的,假如乙個詞w在dw個網頁中出現過,那麼dw的值越大,w的權重就越小。具體的公式如下log(d/dw).
這個我們可以舉個例子,假如有10億個網頁在搜尋庫里,而手機這個詞出現的次數是兩百萬次,那麼我們的計算公式就是
log(2000000/1000000000)=log(500)=6.2
通過這樣的方式,我們就可以算出詞的權重,這個辦法,可以使用在優化當中的長尾生僻詞的辦法中,利用計算,得到最大的權重詞,當然,你無法知道資料庫裡到底有多少個網頁,因此,也就只能通過搜尋結果來判斷了,呵呵。
那麼tf是什麼呢?
吸菸:5次
的:46次
危害:9次
接著我們的話題,tf/idf被認為是資訊檢索中最偉大的發明,就是因為他在一定意義上解決了很多網頁排序的問題,現在的大型搜尋引擎都是靠這個公式去做為基礎的,當然,在計算方式上會改進很多的部分,以求更準確,另外,結合向量空間模型(vector space models) 、多文件列表求交計算等方式,使得搜尋引擎的結果更加準確。
TF IDF 提取關鍵詞
class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...
TF IDF關鍵詞提取方法的學習
tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。tf意思是詞頻 term frequency idf意思是逆向檔案頻率 inverse document frequency 最近學習了阮一峰先生關於tf i...
TF IDF演算法實現關鍵詞抽取
tf idf具體演算法如下 tfidfi,j tfi,j idfi 其中tfidf i,j 是指詞i 相對於文件j的重要性值。tf i,j 指的是某個給定的詞語在指定文件中出現的次數佔比。即給定的詞語在該文件中出現的頻率。這個數字是對term count的歸一化,防止它偏向長文件。計算公式為 tf ...