Ajax動態網頁的資訊抓取（入門）

背景：

不知道你們在學習網路爬蟲過程中是否遇到過這樣的問題，那就是在使用requests抓取頁面資訊的時候，抓取的結果和在瀏覽器上看到的不一樣。瀏覽器中顯示正常的頁面資料，但是抓取的卻是沒有具體資料或者說只是首介面的原始碼。那就是因為現在很多web頁面的原始html頁面不會包含任何資料，資料都是通過ajax統一載入出來再呈現出來的，這樣web就可以做到前後端的分離，而且降低了伺服器直接渲染頁面帶來的壓力。舉個例子，我們的微博頁面，當你一直往下滑的時候內容就載入完了，頁面沒有重新整理，鏈結也沒有變化，但是等待載入圈載入幾秒又出現了新的內容，其實這就是ajax載入的過程。下面我們就從乙個入門的案例來實現ajax資料的抓取，我們模仿requests模擬ajax請求就可以抓去了。

3.可以看出request method為post，在請求頭中x-request-with為xmlhttprequest,這就是ajax請求的標記。查詢其他的ajax請求發現最後的 from data中pageindex 分別為1、2、3……而pagesize卻沒有發生變化。所以不難判定pageindex是頁數引數，改變其值就可以實現翻頁。

4.準備用程式的方式來實現資訊的爬取，所以先思考爬取一頁的必要資訊的程式實現，翻頁就通過迴圈改變引數就可以了：

Ajax動態網頁的資訊抓取（入門）

Python爬蟲解決動態網頁資訊抓取問題

Chrome Python 抓取動態網頁內容

動態抓取網頁資訊

Ajax動態網頁的資訊抓取（入門）

Python爬蟲 解決動態網頁資訊抓取問題

Chrome Python 抓取動態網頁內容

動態抓取網頁資訊

相關推薦

Python爬蟲解決動態網頁資訊抓取問題