自**作《爬取張佳瑋138w+知乎關注者:資料視覺化》
把json資料複製到chrome瀏覽器的json-handle外掛程式裡,方便檢視格式和後續爬蟲裡寫提取資訊:(很少看到有人提到這個外掛程式,也是蠻奇怪的)
寫好爬蟲**,爬取資料並存入csv檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪,以前爬知乎和微博,也是找api從json裡提取資料,並不會有一部分出現亂碼。無可奈何,只能對應的補救下。由於資料裡不包含粉絲數等資訊,需要再根據每個推薦作者的id,到各自主頁爬取資料,整合後格式如下:
但沒有以粉絲數為權重,所以看不出v大v小,於是再丟一遍:
當然一直看這些作者的暱稱其實還是不知道誰是誰,子曾經曰過:「無圖無真相」,那麼把所有作者的頭像拼個圖來看看,發現人像比重非常大啊,看來想成為推薦作者,必須要把頭像換成帥氣的自己才行,不說了,要去換頭像了,不對,要去整容了,再見:
接著按照推薦作者各自的粉絲數降序排列,可見曲線情況非常類似著名的「長尾效應」。當然右側尾部並不是無限長的,也不算完全符合。
上圖可知,所有粉絲共計3975524人次,如果選取粉絲數排名前30的作者,可知其粉絲數已經接近總粉絲數的一半,馬太效應明顯(是這麼用的嘛,有點怕誤人子弟)。
文章數直接幾百上千,總字數更是百萬級別。百萬級別是個什麼概念的,谷歌了下《論語》約1.6w字,《老子》約5k+字數。除一下,推薦作者高產似那啥,創作了大概好多好多部《論語》《老子》的內容,由此可見,名副其實,當之無愧的推薦作者呀。回頭看了下我的總字數,差不多也有一本《論語》加一本《老子》的字數了,23333。
繼續給上圖加上粉絲數(圓圈顏色)和獲讚數(圓圈大小):
按讚數降序可知,其他作者的排序如下,看來要好好研究下,怎麼寫出「人見人愛,花見花開」的文章呢!不說了整容的路上好好看他們的文章。
愣著幹嘛,頂禮膜拜,高呼「苟......」,有點暴力......
百度2023年度搜尋風雲榜發布
以下是部分榜單。1 開心網 2 nba 3 qq 4 優酷 5 校內網 6 dnf 7 8 迅雷 9 摩爾莊園 10 十大上公升最快 1 甲型h1n1流感 2 小瀋陽 3 國慶閱兵 4 麥可傑克遜 5 建國大業 6 羅京 7 2012 8 3g手機 9 曾軼可 10 創業板 十大熱門事件 1 國慶6...
軟體中國2023年度風雲榜網路投票活動順利結束
在廣大的熱心支援下,歷時乙個月 2006年11月15日 2006年12月15日 的主題為 軟體改變世界 創新驅動中國 的軟體中國2006年度風雲榜順利結束,向參與投票的各位表示感謝。本次網路投票,創新技術部分共收到投票 181777張,技術應用 部分收到投票8721張,影響力公司部分收到投票1981...
軟體中國2023年度風雲榜網路投票活動順利結束
在廣大的熱心支援下,歷時乙個月 2006年11月15日 2006年12月15日 的主題為 軟體改變世界 創新驅動中國 的軟體中國2006年度風雲榜順利結束,向參與投票的各位表示感謝。本次網路投票,創新技術部分共收到投票 181777張,技術應用 部分收到投票8721張,影響力公司部分收到投票1981...