這串**中:
%e5%9c%86%e6%9f%b1%e6%a8%a1%e6%9d%bf
是代表圓柱模板的**
這串**中:
%e5%9c%86%e6%9f%b1%e6%a8%a1%e6%9d%bf
f=8這個數值是會變動的。範圍為:
%e9%b9%8f%e7%a8%8b%e5%9c%86%e6%9f%b1%e6%a8%a1%e6%9d%
inputt=54390
代表這個是代表搜尋結果出來的運算時間
使用者後繼詞原理:
把使用者在5分鐘之內在搜尋引擎中搜尋詞定義為一次搜尋行為,那麼就形成了搜尋日誌,搜尋日誌如下:
cookie:使用者cookieid keys:[a1,a2.....] [b1,b2.....] [c1,c2.....]
接著按使用者進行分類,時間間隔5分鐘進行資料清理,[x1,x2.....]乙個陣列表示一次搜尋行為,每個陣列的第一位就是當次搜尋行為的第乙個搜尋詞。
cookie:使用者cookieid keys:[a1,a2.....] [b1,b2.....] [c1,c2.....]
對於單個使用者來說搜尋後繼詞的確定性是不夠的,比如搜尋科比,但是一看到旁邊有人我就立刻改變搜尋培訓,那麼這兩個詞是沒有相關性質的。那麼就加入統計規則去掉一些雜質,比如某個詞b只有出現在5個使用者的相同的搜尋詞a的後繼詞中才算乙個a的後繼詞,還有其他的一些規則,這麼下來,日誌就變成了。
key:a succeed:a1,a2,a3.....
使用者協同過濾原理:
a使用者:籃球 後繼詞 男籃 女籃
b使用者:nba 後繼詞 男籃 科比
c使用者:男籃比賽 後繼詞 男籃 加索爾
從搜尋詞演算法實現:
從搜尋日誌來看例子:
key:搜尋詞 time:搜尋時間 cookie:使用者cookieid result:a,b,c,d,e(前5個搜尋結果)
這次,我們只用key和result兩項,稍微處理下來以後就變成了
key:搜尋詞a result:a,b,c,d,e(前5個搜尋結果)
key:搜尋詞b result:a,f,c,g,m(前5個搜尋結果)
如果我們把每一行資料的result想象成一篇文件,result裡面的每個結果集想象成乙個詞語,那麼這其實就是求兩個文件之間的相似性了,從頭到尾過一遍就可以找到每一行資料和它最相似的資料了,而每一行可以用當行的搜尋詞表示,這麼一算下來資料就變成這樣子了,後面的括號裡面是兩個詞的相似度,如果想知道文字的相似性如何計算,可以參考我之前的文章,本文最後有鏈結。
key:搜尋詞asucceed:搜尋詞b(0.8)搜尋詞c(0.6).....
key:搜尋詞bsucceed:搜尋詞a(0.8)搜尋詞e(0.7).....
從使用者搜尋結果集考慮
如果某個搜尋結果(比如乙個網頁或者乙個商品)出現在了不同的搜尋詞的結果集中,那麼這些個搜尋詞很可能是相關的,如果這個搜尋結果在不同的搜尋詞下都被點選了,那麼這些個詞的相關性就更高了。
點選的加成是很強大的,而且在資料量巨大的情況下,我們可以只考慮點選的情況,還是拉出搜尋日誌,不過這次是搜尋點選日誌了,拉出來處理一下就變成下面這個樣子,每行就是某個搜尋詞下點選的商品
key:搜尋詞aclick:結果a結果b結果c
這個樣子和上面第二種方法最後出來的樣子基本一樣,不過這次是點選資料,相關性可比直接的搜尋結果要好很多了,因為搜尋結果取決於你的搜尋演算法,而這種點選資料是來自使用者的,人的可靠性可高了不少,所以說這個是上乙個的加強版。
協同過濾的演算法,簡單版本整體不會超過200行,很容易實現的。
通過這樣的方式,容易推出意思相近的詞,同樣也容易推出看似完全不相關但仔細想想還是靠譜的詞,就像下面這樣,他們雖然不見得近義詞,但是很可能會點選到同乙個結果上。
怎樣刷百度相關搜尋 搜尋槍手
2008年開始地金融危機還在持續蔓延,雖然近段時間有所好轉,這也使得我國得企業將面臨著又一場嚴峻地 寒冬 此次地金融危機表面上險象叢生,實際上有利於行業洗牌 優勝劣汰 企業發展機會很多 因此 我們必須辨證地看這個影響得問題 客觀地講,08金融危機對網路行業刺激很大,我這裡指地刺激是利好刺激,因為很多...
百度搜尋URL引數
關鍵字 cl 3 cl class 搜尋型別,cl 3為網頁搜尋,cl 2為搜尋 pn page number 顯示結果的頁數 ct 此值一般是一串數字,可能是搜尋請求的驗證碼 si 在限定的網域名稱中搜尋,比如想在本站內搜尋可使用引數si shangzhiwang.com,要使這個引數有效必須結合...
百度搜尋結果頁url引數詳解
s?搜尋 rsv spt 使用者瀏覽器型別 值為1或者3 暫時只統計到這兩個值 用於標記使用者當前使用的瀏覽器,ie核心瀏覽器為1,非ie核心為1,不過現在這個引數恒為3,還沒有了解到時停用了還是改作他用。rsv bp 判斷是第幾次搜尋 inputt 鍵入時間 f 搜尋行為判斷 pn 頁碼 值為公差...