這一篇就準備來學習如何解決爬蟲過程中需要登入才能爬資料的問題。
大致看到一種可行性方案是基於cookie的方式登入。
什麼是cookie?簡單介紹一下就是通過本地資料登入。
首先,需要獲取到cookies,通過谷歌瀏覽器的**,document.cookie,在console裡面可以獲取,然後選取需要的字段。
然後設定cookies,他的格式是這樣的:'cookies':'........'就是字典形式,並不是乙個字串走到頭。
我總不能每次就爬第一頁的資料吧。
了解到這個問題是出在了ajax上,這個ajax就是url**不變,但是資料能夠進來,其原因是什麼我也沒弄明白,但是通過看網頁元素,大概明白了他雖然**沒變,但是元素的**其實延長了,延長的部分包含了page的資訊,所以你直接在request的時候用元素**就能順利完成翻頁的操作了。
所以最最最基礎的爬蟲就這麼完成了,雖然很慢,但是我需要的資料也不是那麼海量的,設定乙個time.sleep防止平台封號,乙個晚上就能搞定一類資料。
動態網頁爬蟲
方式 優點缺點 分析介面 直接可以請求到資料,不需要做任何解析工作,量少,效能高 分析介面比較複雜,特別是一些通過js混淆的介面,容易被發現是爬蟲 selenium 直接模擬瀏覽器的行為,瀏覽器可以請求到的,使用 selenium 也能請求到,比較穩定 量多,效能低 selenium相當於是乙個機械...
動態網頁爬蟲
network 記錄的是從開啟瀏覽器的開發者工具到網頁載入完畢之間的所有請求。如果你在網頁載入完畢後開啟,裡面可能就是空的,我們開著開發者工具重新整理一下網頁即可 爬蟲中常用的請求型別有 all xhr img 和 media,剩下的了解一下即可 常用的請求資訊,比如請求的名稱 狀態碼 型別 資料大...
Python爬蟲入門二之爬蟲基礎了解
靜覓 python爬蟲入門二之爬蟲基礎了解 爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超...