鄭昀 20090918
1、背景知識
shared items 主頁:
profile 主頁:
profile widget:
通過對shared和like行為的資料收集,並構造乙個簡單的公式,可以大致測量出google reader使用者的分享活躍度,簡稱gruserrank。
gruserrank 的用途:
能有效地區別對待使用者,把活躍使用者、分享質量低的使用者、休眠使用者分開,有利於優化程式;
也是一種社會化的參考指標。
2、如何遍歷
xlvector 在《google reader的資料收集》中提及,因為每乙個shared items feed給出了like它的使用者id(具體邏輯請參考我的文章《google reader的likes運算元據如何獲取?》),所以只要從某一批使用者的shared item feed出發,就可以通過廣度優先搜尋將整個google reader的使用者資料抓下來。這個資料集可以說內容非常豐富,包含了時間和內容資訊,相信在它的基礎上可以做出不少工作。
3、分享活躍度的計算公式
這個思路是可以用來計算 gruserrank 的。
第一步,
我們從 玩聚sr 的已收集gr使用者id集合(基本能保證都是中文使用者)開始,掃瞄每乙個使用者的shared items feed,根據正規表示式:
([0-9a-z_!~*'()-]+)
從中獲取所有 likinguser 的id,存入全域性字典,統計每乙個user最近作出like操作的次數(變數簡稱likes),保證唯一性。
接下來,我們遍歷 likingusers 集合,按照 likes 的順序,即經常標記like的使用者優先遍歷。
對於每乙個使用者,要拿到以下數值:
最近分享的三篇文章的發表時間新鮮度:變數簡稱freshmeats。用每一篇文章發表時間減去乙個基準時間值(我取前四天的日期作為基準,如今日是9月18日,那麼基準時間是2009-09-15),然後取平均值。
第三步,
按照我的文章《social media排序演算法的四種模式》,我們還要指定乙個時間基數:
baseseconds :12.5 小時週期內的總秒數,45000秒。
那麼公式就是:
gruserrank= log10(likes*因子a+shares*因子b)+freshmeats/baseseconds
因子a、b自己調整,我取2和3。
p.s:同時可以從
profile widget:
的html**中用正規表示式獲取該使用者的頭像位址。
4、小結
這樣大致能遍歷了google reader中文使用者,對分享能力低迷的使用者識別效果良好。從rank數值上看,基本能判定:
rank < 0 :使用者的活躍度很低;如果rank
3、使用者分享某一篇文章時屬於「follower」還是「discoverer」:如果是最先一批分享文章的,意味著他可能是同一人群中的專家。(參見《從social media海量資料中尋找專家的五大手法》)
鄭昀 北京報道 20090918
如何找到正在熱傳的微部落格? 20090907
social media附加價值開發的四大模式 20090831;
分析人的網路軌跡和碎片之四大模式 20090830;
從social media海量資料中尋找專家的五大手法 20090903;
social media排序演算法的四種模式 20090905。
如何測量電壓?
1 電壓測量的方法一般分為直接測量法和間接測量法兩種。直接測量法在測量過程中,能從儀器 儀表上直接讀出被測參量的波形或數值。間按測量是先對各間按參量進行直接測量,再將測得的數值代入公式,通過計算得到待測參量。2 測量電壓的儀器一般有電壓表 示波器 交流毫伏表等。電壓表可以用來測量直流電壓 低頻交流電...
如何測量電流?
電流的測量 1.電阻取樣法 用電阻做取樣,一般就是講電阻放置在需要取樣電流的位置,通過測量電阻兩端的電壓值來反饋,進而確定電路中的電流大小。那麼取樣電阻的阻值一般要求比較小,這樣才能讓放進去的電阻不影響原電路中電流大小,以確保取樣精準。2.互感檢測法 互感檢測法,一般用在高電壓大電流場合 交流 在互...
Multi Instrument如何測量裝置延時
發現超過150ms左右的延時就測不出來,是因為白雜訊的長度不夠嗎 虛儀科技multi tech.cn 15 28 29 fft點數多少 z 15 28 35 16384 虛儀科技multi tech.cn 15 29 29 窗函式是什麼 z 15 29 39 矩形虛儀科技multi tech.cn ...