微博抓取嘗試

1）找人，通過關注列表；

2）提取出微博的資料，放到資料庫；

微博暱稱，頭像；

關注，粉絲及微博數量；

根據一些基本的原則來決定是否將該使用者的微博入待爬的佇列；

指標：關注人數；

粉絲人數；但是有可能會很多人，而且有很多殭屍粉；（不好:第一，低效；

第二，平台也不會讓你無限制的往下翻頁，肯定會有限制）

微博數，粉絲數的數量是個重要的參考點；

怎麼判斷抓取的人不值得關注？可以先做乙個定向的分析，分析你所抓的領域的人的微博大致情況；

1）如果發布的微博數量特別少，可以認為是殭屍使用者，不用爬；微博數小於某個下限；

2）如果發布的微博數量特別多，比如每天發100多條，可能是小廣告商或者機械人；

3）對於**的微博其實和殭屍的微博差不多，你可能爬了大量的微博發現都是重複的資訊；

# 下面列出部分**如下：

python 抓取微博資料

匯入需要的模組 import urllib.request import json 定義要爬取的微博大v的微博id id 1259110474 設定 ip proxy addr 122.241.72.191 808 定義頁面開啟函式獲取微博主頁的containerid，爬取微博內容時需要此id d...

模擬登入微博通，抓取新浪微博c

廢話少說，下面的東西就在倆個小時內完成了。一首先我們要提到模擬登入微博通，我用fiddler檢視了下，發現登入走下面三個流程下面來上完成上面的描述，很簡單，如下 1 我們先定義乙個全域性變數 private static cookiecontainer cc new cookiecontain...

python抓取微博熱搜列表

20200912 今天收拾自己以前的看到了很久之前寫的乙個抓取微博熱搜的最起碼的兩年了，然後跑了一下，居然還行，只不過並不是理想，資料上有些偏差，但是能用。功能就是每1分鐘抓取一次，然後寫到日誌中。bin python coding utf 8 import requests user agen...

微博抓取嘗試

python 抓取微博資料

模擬登入微博通，抓取新浪微博c

python抓取微博熱搜列表

相關推薦