如果乙個網頁的入鏈越多,別的網頁引用他越多,它越重要。(重要一定程度上可以理解為隨機衝浪者處於各**的概率)
乙個重要的網頁鏈結到乙個其他網頁,那麼被鏈結到的網頁也就越重要。
web轉移矩陣w:p129,如果節點i有k條出鏈,則每一條出鏈的權值為1/k,非出鏈的權值為0。(實際的意義為從網頁i鏈結到其他各網頁的概率,在簡單的概率相等情況下)
概率角度解釋:假設隨機衝浪者處於n個網頁的概率相等,初始的概率分布v均為1/n。那麼通過轉移矩陣w,訪問一次後處於各網頁的就是w*v,i次後就是(w^i)*v。
可以用(w^i)*v衡量經過i次訪問後,處於各網頁的概率,也就得出了各網頁的重要性。
上述行為實際上是乙個馬爾可夫過程,經過發現如果圖是乙個強連通圖且不存在不出鏈的節點的。那麼(w^i)*v將逼近於極限分布,
w*v=v。
現在已知 w*v=v,其中v是未知引數,而w是轉移矩陣已知。如何求v。
(1)(w-1)v=0,解方程組,但是由於實際w太大,無法解
(2)特徵向量 w*v=1*v,v為特徵值1所對應的特徵向量。
鏈結分析學習
這章主要是對演算法的一些描述,理解,實際使用沒有.兩個模型 隨機遊走模型 對直接跳轉和遠端跳轉兩種使用者瀏覽行為進行抽象的模型.子集傳播模型 將網際網路的某些符合規則的分為指定的集合,對集合賦予初始的權重,然後將剩餘的網頁,根據和集合內網頁的關係,傳遞其權重.hits演算法 引入hub和author...
機器學習工具包鏈結
1.sklearn 2.lightgbm 3.keras backend庫 用來進行low level的庫,目前主要有tensorflow,theano,cntk 等三類.fit 中的 verbose verbose 日誌顯示 verbose 0 為不在標準輸出流輸出日誌資訊 verbose 1 為...
機器學習之聚類分析
聚類的核心是相似度或距離,聚類分析中有多種計算距離和相似度的定義 閔可夫斯基距離 d xi xj p 1 p p為大於1的數 python實現為 import numpy as np dt np.random.rand 10 reshape 2,5 minkow len 0p 10 可自行定義 fo...