機器學習 鏈結分析 pageRank

2021-08-11 09:34:58 字數 534 閱讀 3902

如果乙個網頁的入鏈越多,別的網頁引用他越多,它越重要。(重要一定程度上可以理解為隨機衝浪者處於各**的概率)

乙個重要的網頁鏈結到乙個其他網頁,那麼被鏈結到的網頁也就越重要。

web轉移矩陣w:p129,如果節點i有k條出鏈,則每一條出鏈的權值為1/k,非出鏈的權值為0。(實際的意義為從網頁i鏈結到其他各網頁的概率,在簡單的概率相等情況下)

概率角度解釋:假設隨機衝浪者處於n個網頁的概率相等,初始的概率分布v均為1/n。那麼通過轉移矩陣w,訪問一次後處於各網頁的就是w*v,i次後就是(w^i)*v。

可以用(w^i)*v衡量經過i次訪問後,處於各網頁的概率,也就得出了各網頁的重要性。

上述行為實際上是乙個馬爾可夫過程,經過發現如果圖是乙個強連通圖且不存在不出鏈的節點的。那麼(w^i)*v將逼近於極限分布,

w*v=v。

現在已知 w*v=v,其中v是未知引數,而w是轉移矩陣已知。如何求v。

(1)(w-1)v=0,解方程組,但是由於實際w太大,無法解

(2)特徵向量  w*v=1*v,v為特徵值1所對應的特徵向量。

鏈結分析學習

這章主要是對演算法的一些描述,理解,實際使用沒有.兩個模型 隨機遊走模型 對直接跳轉和遠端跳轉兩種使用者瀏覽行為進行抽象的模型.子集傳播模型 將網際網路的某些符合規則的分為指定的集合,對集合賦予初始的權重,然後將剩餘的網頁,根據和集合內網頁的關係,傳遞其權重.hits演算法 引入hub和author...

機器學習工具包鏈結

1.sklearn 2.lightgbm 3.keras backend庫 用來進行low level的庫,目前主要有tensorflow,theano,cntk 等三類.fit 中的 verbose verbose 日誌顯示 verbose 0 為不在標準輸出流輸出日誌資訊 verbose 1 為...

機器學習之聚類分析

聚類的核心是相似度或距離,聚類分析中有多種計算距離和相似度的定義 閔可夫斯基距離 d xi xj p 1 p p為大於1的數 python實現為 import numpy as np dt np.random.rand 10 reshape 2,5 minkow len 0p 10 可自行定義 fo...