兩個web頁面通過hyperlink連線,可以認為這兩個頁面具有某種關係,在科學文獻中這種關係很大程度上可以認為是引用文獻與被引用文獻在內容、主題上有很多的相似性,並且利用這種引用關係在資訊計量學領域可以計算期刊的影響因子。網際網路包含了浩瀚的網頁,它們之間存在著無數的鏈結與被鏈結的關係,同樣,我們也可通過分析這些鏈結,得到某乙個網頁的重要性得分。許多鏈結分析演算法如pagerank、hits等都是基於這種思維而建立的。
而絕大多數鏈結分析演算法都是建立在兩個概念模型之上: 1.
隨機遊走模型
隨機遊走模型是針對瀏覽網頁的使用者行為建立的抽象概念模型。使用者開啟瀏覽器,往往是先輸入乙個鏈結,瀏覽頁面,然後順著頁面的鏈結不斷開啟新的網頁。使用者不斷重複以上過程,直到使用者不再對接下來的頁面感興趣,就有可能直接輸入另外乙個**跳轉到另外乙個頁面,這個行為稱為遠端跳轉(teleporting)(在pagerank中為了防止鏈結陷阱,即在乙個環形的頁面組中,只有入鏈而沒有出鏈,會導致這個環形組中的頁面pr值在一輪一輪的迭代中不斷的增大,為了解決這一情況,pagerank在這個頁面組中使用了遠端跳轉,即使環形組頁面也有一定的機率向外傳遞分值)。
隨機遊走模型就是乙個對直接跳轉和遠端跳轉兩種使用者瀏覽行為進行抽象的概念模型。
2.
子集傳播模型
子集傳播模型是《這就是搜尋引擎》的作者張俊林從具體的鏈結分析演算法中歸納出的抽象模型,最典型的的就是hits演算法。其基本思想是把網際網路網頁按照一定規則劃分,分為兩個甚至是多個子集合。通過給予子集合內的網頁初始權值,通過鏈結關係,把權值傳遞出去。例如,hits演算法選擇集合的方法是:通過使用者提交的查詢詞,在搜尋引擎中得到該查詢詞的檢索結果,取排名靠前的前n個網頁(如n=200),這n個網頁作為root set。
在根集root的基礎上,對網頁集合進行擴充集合base set
,擴充原則是:凡是與根集內網頁有直接鏈結指向關係的網頁都被擴充到集合base set,無論是有鏈結指向根集內頁面也好,或者是根集頁面有鏈結指向的頁面也好,都被擴充進入擴充套件網頁集合base set(參見圖1)
。hits演算法就是在base集合上進行網頁權威的和中心度的計算的。
基於隨機森林模型的紅酒品質分析
url 匯入模組 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.ensemble import randomforestclassifier from sklearn.mo...
鏈結分析演算法之 SALSA演算法
salsa演算法的初衷希望能夠結合pagerank和hits演算法兩者的主要特點,既可以利用hits演算法與查詢相關的特點,也可以採納pagerank的 隨機遊走模型 這是salsa演算法提出的背景。由此可見,salsa演算法融合了pagerank和hits演算法的基本思想,從實際效果來說,很多實驗...
鏈結分析演算法之 HITS演算法
hits hits hyperlink induced topic search 演算法是由康奈爾大學 cornell university 的jon kleinberg 博士於1997 年首先提出的,為ibm 公司阿爾馬登研究中心 ibm almaden research center 的名為 c...