Python爬蟲 解決動態網頁資訊抓取問題

2021-10-08 15:42:36 字數 1370 閱讀 1565

1.嵌入式網頁爬取右鍵開啟原始碼找到iframe標籤,拿出裡面的src位址

進入src位址中的頁面後不要停留在首頁,首頁**通常是比較特殊的,分析不出來規律,需要我們進入首頁外的任一位址

進入第二頁,我們便可以發現頁面中的規律,僅僅只需要更換curpage後的數字就可以切換到不同的頁面,這樣一來,我們只需要乙個迴圈就可以得到所有資料頁面的位址,接下來傳送get請求獲取資料即可。

?curpage=2&rows=15&deptid=1002000000000000

2.js載入型網頁抓取舉例:有些動態網頁並沒有採用網頁嵌入的方式,而選擇了js載入

這裡我舉例的是北京市的信訪頁面(

我們會發現當選擇不同頁面時,**並不會發生變化,這點和上面說的嵌入式頁面一樣。

右鍵開啟原始碼,沒有發現iframehtml等嵌入式頁面的標緻性標籤,但是我們不難發現在放有資料的div中有乙個id,這是js載入處理的乙個明顯標識。現在進入控制台的network

進行頁面跳轉(我跳轉到了第3頁),注意觀察控制台左方新出現的檔案js,在裡面找到載入新資料的js檔案,開啟它會發現pagecond/begin: 18pagecond/length: 6類似的引數,很明顯**就是依據這個引數來載入相關資料的,將它隨著post請求一下傳送給**,就可以得到我們想要的資料了。

payloaddata =

dumpjsondata = json.dumps(payloaddata)

headers =

req = requests.post(url,headers=headers,data=payloaddata)

python動態爬蟲 Python動態網頁爬蟲技術

這一講,我將會為大家講解稍微複雜一點的爬蟲,即動態網頁的爬蟲。動態網頁技術介紹 動態網頁爬蟲技術一之api請求法 動態網頁爬蟲技術二之模擬瀏覽器法 google chrome driver安裝 課後作業 關於作者 動態網頁技術介紹 所謂的動態網頁,是指跟靜態網頁相對的一種網頁程式設計技術。靜態網頁,...

動態網頁爬蟲

方式 優點缺點 分析介面 直接可以請求到資料,不需要做任何解析工作,量少,效能高 分析介面比較複雜,特別是一些通過js混淆的介面,容易被發現是爬蟲 selenium 直接模擬瀏覽器的行為,瀏覽器可以請求到的,使用 selenium 也能請求到,比較穩定 量多,效能低 selenium相當於是乙個機械...

動態網頁爬蟲

network 記錄的是從開啟瀏覽器的開發者工具到網頁載入完畢之間的所有請求。如果你在網頁載入完畢後開啟,裡面可能就是空的,我們開著開發者工具重新整理一下網頁即可 爬蟲中常用的請求型別有 all xhr img 和 media,剩下的了解一下即可 常用的請求資訊,比如請求的名稱 狀態碼 型別 資料大...