1.pagerank
pagerank是乙個函式,為web中每個網頁賦予乙個實數值。pagerank值越高,越重要。
web轉移矩陣:描述隨機衝浪者下一步的訪問行為。網頁數目為n,則m為乙個n*n的方陣。網頁j有k條出鏈,則對鏈向網頁i的元素值mij=1/k。
第一列表示處於a的隨機衝浪者將以1/3的概率訪問其他3個網頁。隨機衝浪者位置的概率分布可以通過n維列向量描述,第j個分量代表衝浪者處於網頁j的概率。
假設隨機衝浪處於n個網頁的初始概率相等,即n維向量v0=[1/n,1/n,......,1/n],則下一步的位置概率x = m * v0。最終到達乙個極限分布v,滿足v=mv。不斷左乘迭代(50-70次)即可。
2.web結構
終止點問題:沒有出鏈的網頁。轉移矩陣列之和不為1而為0。不斷迭代,隨機衝浪者在任何網頁出現的概率都為0。
處理方法:
(1)將終止點及其入鏈剔除。
(2)「抽稅」,允許每個隨機衝浪者能夠以乙個較小的概率隨機跳轉到乙個隨機網頁。 v『 = p * mv + (1-p)e/n ,乙個新的衝浪者以(1-p)的概率隨機選擇乙個網頁訪問。
3.pagerank在搜尋引擎的使用
查詢中包含詞項的網頁才會被排序,除pagerank得分外,詞項是否在關鍵位置出現或者在指向當前網頁的鏈結上出現都是被考慮的因素。
4.pagerank快速計算mapreduce實現
稀疏轉移矩陣的表示:列出非零元素值及其位置。
pagerank每次的迭代過程中v可能無法在記憶體存放,將矩陣m分割成垂直條,把v分割成對應的水平條。
5.改進的pagerank
面向主題的pagerank,基於網頁的主題加大它們的權重。
每個使用者都擁有乙個私人的pagerank向量來代表網頁在該使用者下的重要性。
有偏的隨機遊走模型:v』 = p * mv + (1-p)e/|s| s由已知某個主題的行號或列號構成,例如s = 。
6.導航頁和權威頁
「乙個指向好的權威頁的網頁是乙個好的導航頁,乙個被好的導航頁指向的網頁是乙個好的權威頁」
資料探勘筆記 2 資料規約
資料規約 對於中小型資料集而言,前面提到的資料探勘準備中的預處理步驟通常足夠了。但對於真正意義上的大型資料集,在應用資料探勘技術之前,還需要執行乙個中間的 額外的步驟 資料規約。本次主要說維規約。3.1 大型資料的維度 資料規約過程的3個基本操作是刪除列 刪除行 減少列中值的數量。全面分析下述引數 ...
資料探勘導論學習筆記(2) 資料(2)
資料預處理 優點 減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。缺點 可能會丟失模式。優點 減少分析的資料可以減少占用空間和處理時間,可以使用更大開銷的挖掘演算法。缺點 肯定沒有全量資料分析準確,可能會 丟失模式。抽樣方法 1.簡單隨機抽樣 random samping 隨...
大資料的筆記 2
hive 中追加匯入資料的 4 種方式和簡要語法 從本地匯入 load data local inpath home 1.txt overwrite into table student 從 hdfs 匯入 load data inpath user hive warehouse 1.txt ove...