python爬取《流浪地球》16w評論

2021-09-11 15:05:04 字數 613 閱讀 4715

今年春節檔電影《流浪地球》火的不要不要,截止到今天 2 月 17 日,上映 13 天,目前票房已達 36 億,可喜可賀。

我自己到現在其實還沒看這部電影,畢竟這電影這麼火,電影院現在都很難買到好的位置。所以我打算不如先看看大家是怎麼評價這部電影的,然後就開始寫爬蟲吧。

#只能獲取1000條資料介面

複製**

表面上看好像只需通過 offset 這個引數就能控制翻頁來獲取更多資料了,於是簡單試了幾個引數發現還真可以。

於是開始寫爬蟲程式,寫完執行程式發現 offset 只能到 1000,再往後就沒有資料返回了,因此意味著這個方式只能獲取 1000 條資料。

我開始到網上去尋找其他答案,發現有人在用另外乙個介面,思路大概是按日期來查詢,然後對每天的資料再做分頁獲取,看上去還不錯,就是下面這個介面。

#每天1000條資料介面

'複製**

這個介面確實可以拿到更多的資料,但是跟上面那個介面一樣,同樣是每天只能獲取 1000 條資料,即從上線到今天最多也只能拿到不到 2w 的資料,這個資料量有點少,看看還有沒有其他辦法。

#靠譜介面

複製**

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...

python 爬取小說

前些天突然想看一些 可能是因為壓力大,所以就要有補償機制吧。為了節省流量,就想著把內容爬下來,然後就可以在路上看了。於是有了下面的指令碼。usr bin env python coding utf 8 import requests from lxml import etree 為了解決unicod...