1)找人,通過關注列表;
2)提取出微博的資料,放到資料庫;
微博暱稱,頭像;
關注,粉絲及微博數量;
根據一些基本的原則來決定是否將該使用者的微博入待爬的佇列;
指標:關注人數;
粉絲人數;但是有可能會很多人,而且有很多殭屍粉;(不好:第一,低效;
第二,平台也不會讓你無限制的往下翻頁,肯定會有限制)
微博數,粉絲數的數量是個重要的參考點;
怎麼判斷抓取的人不值得關注?可以先做乙個定向的分析,分析你所抓的領域的人的微博大致情況;
1)如果發布的微博數量特別少,可以認為是殭屍使用者,不用爬;微博數小於某個下限;
2)如果發布的微博數量特別多,比如每天發100多條,可能是小廣告商或者機械人;
3)對於**的微博其實和殭屍的微博差不多,你可能爬了大量的微博發現都是重複的資訊;
# 下面列出部分**如下:
python 抓取微博資料
匯入需要的模組 import urllib.request import json 定義要爬取的微博大v的微博id id 1259110474 設定 ip proxy addr 122.241.72.191 808 定義頁面開啟函式 獲取微博主頁的containerid,爬取微博內容時需要此id d...
模擬登入微博通,抓取新浪微博c
廢話少說,下面的東西就在倆個小時內完成了。一 首先我們要提到模擬登入微博通,我用fiddler檢視了下,發現登入走下面三個流程 下面來上 完成上面的描述,很簡單,如下 1 我們先定義乙個全域性變數 private static cookiecontainer cc new cookiecontain...
python抓取微博熱搜列表
20200912 今天收拾自己以前的 看到了很久之前寫的乙個抓取微博熱搜的 最起碼的兩年了,然後跑了一下,居然還行,只不過並不是理想,資料上有些偏差,但是能用。功能就是每1分鐘抓取一次,然後寫到日誌中。bin python coding utf 8 import requests user agen...