首先來看看什麼是pagerank:
pagerank 技術:通過對由超過 50,000 萬個變數和 20 億個詞彙組成的方程進行計算,pagerank 能夠對網頁的重要性做出客觀的評價。pagerank 並不計算直接鏈結的數量,而是將從網頁 a 指向網頁 b 的鏈結解釋為由網頁 a 對網頁 b 所投的一票。這樣,pagerank 會根據網頁 b 所收到的投票數量來評估該頁的重要性。
此外,pagerank 還會評估每個投票網頁的重要性,因為某些網頁的投票被認為具有較高的價值,這樣,它所鏈結的網頁就能獲得較高的價值。重要網頁獲得的 pagerank(網頁排名)較高,從而顯示在搜尋結果的頂部。……(
from google)
一句話,google是採用加權投票的機制來判斷網頁的重要性。在文字分類中,是不是也可以受到點啟發呢?將類似的方法暫稱之為weightbayes+方法。所不同的是,pagerank操作的是網頁,基於網頁之間的信任投票。而在文字分類中,我們採用的是特徵詞條之間的聯絡來進行投票:以搜狗提供的文字分類語料庫萬餘文字為例,如果某詞條a同n個詞條同時出現過,那麼n越大,則詞條a的區分類別能力越小,n個詞所屬的類別越集中,則a的區分能力越大。同時還要注意到a的權重。
不過目前只是處於想法階段,並沒有認真的去做……
由Cannot find file 想到的
記錄一下 今天除錯程式,單步真機除錯,我日,程式一步一步走,盡然和程式根本就對不上號。特別奇怪。思考一下,應該是工程太多太雜,自己有不小心,讓它們混在一起打架了。於是繼續,把其它所有工程都關了,只開啟乙個,清理了所有工程。與此工程有關的直接搜尋清理,一直以來覺得沒有必要,但這次是為了保險起見。編譯工...
由VBA想到的
這段時間由於工作原因研究了一下 vba,感覺完全是如墜五里霧中,主要原因是對 atl乃至對 com技術的應用不了解。簡單說一下 vba,用過 office 系列軟體的朋友都知道它,用 vb語法來控制文件生成過程,很不錯。不只是 office,很多其它優秀軟體都有 vba模組,比如 autocad 這...
由function AA 想到的
最近公司在做的是乙個後台管理 簡單的業務流程是這樣的,客戶下單,公司內部各個部門進行審核驗證等一系列的操作。暫時的開發人員只有我乙個人,其他小組的人同時在進行其他專案。的後台基本架構很快搭建出來了,之後就是各個基礎資料表維護的實現。過了幾天,這個專案調過來個開發人員。我是這樣想的,乙個人寫前端表單驗...