資料探勘
有效性、可用性、出乎意料、可理解性
假設有圖:
其鄰接矩陣 m為:
帶入公式迭代,結果為:
最終,rm=1
而 ry=ra=0 。這從漫步者的角度很好理解,在經過一段時間之後,漫步者到達了 m 節點,然而 m 節點只有指向自己的鏈結,然後就只能一直停留在 m,所以最後的概率一定是1, 而其他兩個節點的概率就變成了0 。
解決方案
隨機傳送 random teleports
google解決這個問題的辦法是:到達某個節點後 * 有 β
的概率隨機找乙個鏈結過去 * 剩下 1−β 的概率跳到乙個隨機的頁面 * 一般 β 的值在 0.8 到 0.9
之間這樣就使得漫步者在到達m節點之後有一定的概率跳出去!
假設有圖:
其鄰接矩陣為:
漫步者到達m之後發現是死胡同,無路可走了,然而他也不會在m停留,所以最後出現在三個節點的概率都等於0 。
解決方案
依舊是傳送!
當漫步者到達死胡同時,傳送的概率變為 1.0 ,隨機傳送到任意頁面,然後圖就變成了如下:
鄰接矩陣變為:
這樣問題就解決了,漫步這每次到m之後,發現去所有頁面的概率都相同且不為零,相當於隨機跳轉到乙個頁面。
計算流程
計算資訊增益
改進
id3演算法使用的是資訊增益,它偏向於分類較多的變數;近朱者赤近墨者黑c4.5演算法使用的是資訊增益比,它偏向於分類較少的變數。
開始:選k個核
結束條件:
o(n2)
優點
為使用者獨特口味推薦
推薦新的、不熱門的商品
提供解釋
缺點
相似度度量
cosine
pearson
優點
缺點
稀疏矩陣
第乙個評分者問題
大眾化document stores
key-value stores
wide-column stores
community detection
classification
link prediction
viral marketing
network modeling
依據什麼標準可以稱為community?
資料分析基礎複習
資料分析複習 什麼是資料分析 通過對資料的蒐集 整理 清洗,提取資料的潛在特徵,找到資料的隱藏規律,發現潛在目標及價值。怎麼實現分析目標 借助於一些工具及演算法 資料採集 資料分析 資料視覺化 信用卡盜刷分析 1.分析審視資料 2.特徵工程 畫出直方圖,找出分布有明顯區別的變數,是對分類目標 信用卡...
大資料分析工具
新 指數 清博大資料 新 指數 www.gsdata.cn 是新 大資料第一平台,為運營新 利器 現已開通賬號分鐘級監測服務,打擊粉絲造假賬號,支援使用者自主監測新 資料 定製各類榜單,並提供資料api等各類增值服務。資料視覺化工具 cytoscape 圖表秀 資料觀 微博足跡視覺化 bdp個人版 ...
大資料分析流程
愛資料學院 welcome 一 為什麼要做乙份資料報告 你是乙個工作了一段時間的白領,你覺得現在這份工作不適合你,你下班以後去逛知乎,在上面看到很多人在說大資料代表未來,資料分析師是21世紀最 的十大職業之一 你激動了,你也要成為資料分析師,你利用空餘時間補上了統計知識,學了分析工具,然後發現自己目...