十大經典資料探勘演算法 PageRank

2021-08-28 20:29:34 字數 1651 閱讀 6498

作者簡介:

treant人工智慧愛好者社群專欄作者

部落格專欄:

引言排名高的網頁應具有更大的表決權,即當乙個網頁被排名高的網頁所鏈結時,其重要性也應對應提高。

表示i個網頁的pagerank值,用以衡量每乙個網頁的排名;若排名越高,則其pagerank值越大。網頁之間的鏈結關係可以表示成乙個有向圖

,邊代表了網頁j鏈結到了網頁i;

為網頁j的出度,也可看作網頁j的外鏈數( the number of out-links)。

假定為n維pagerank值向量,a為有向圖g所對應的轉移矩陣,

n個等式(1)改寫為矩陣相乘:

但是,為了獲得某個網頁的排名,而需要知道其他網頁的排名,這不就等同於「是先有雞還是先有蛋」的問題了麼?幸運的是,pagerank採用power iteration方法破解了這個問題怪圈。欲知詳情,請看下節分解。

求解

那麼,矩陣a即為

所謂power iteration,是指先給定乙個p的初始值

,然後通過多輪迭代求解:

最後收斂於

,即差別小於某個閾值。我們發現式子(2)為乙個特徵方程(characteristic equation),並且解p是當特徵值(eigenvalue)為1時的特徵向量(eigenvector)。為了滿足(2)是有解的,則矩陣aa應滿足如下三個性質:

顯然,一般情況下矩陣a這三個性質均不滿足。為了滿足性質stochastic matrix,可以把全為0的行替換為e/ne/n,其中e為單位向量;同時為了滿足性質不可約、非週期,需要做平滑處理:

其中,d為 damping factor,常置為0與1之間的乙個常數;e為單位陣。那麼,式子(1)被改寫為

參考資料

[1] bing liu and philip s. yu, "the top ten algorithms in data mining" chapter 6.

往期回顧:

【十大經典資料探勘演算法】c4.5

【十大經典資料探勘演算法】k-means

【十大經典資料探勘演算法】svm

【十大經典資料探勘演算法】apriori

【十大經典資料探勘演算法】em

【從傳統方法到深度學習】影象分類

編輯於 17:17

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...

十大經典資料探勘演算法

c4.5演算法 機器學習演算法中的乙個分類決策樹演算法 cart 分類與回歸樹 c4.5與cart都是決策樹演算法 id3用資訊增益,c4.5用資訊增益率,cart用gini係數 knn 樸素貝葉斯 bayes 在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型 decision tree ...