# 在平時的爬蟲中,如果遇到沒有區域性重新整理,沒有字型加密,右鍵檢查也能看到清晰的資料,但是按照已經制定好的解析規則進行解析時,會返回空資料,這是為什麼呢,這時可以在網頁右鍵檢視一下網頁源**,可以發現,在網頁上的源**中有些部分是正確的,有些標籤是不正確的,改了名字或者加了數字,或者不是你在網頁上檢查看到的標籤名,所以如果你按照網頁上的解析規則去解析, 是解析不到的,這時就要按照網頁源**的解析規則去解析了,這就是典型的網頁懶載入。選取了站長之家作為目標站點# 什麼是網頁懶載入?
# 網頁懶載入是前端為了提高網頁訪問速度,將頁面內沒有出現在可視區域內的先不做載入,等到手動滑動滑鼠滾動到可視區域後再載入。這樣對於網頁載入效能上會有很大的提公升,懶載入的效果就可以提公升使用者體驗。
import requests
from pyquery import pyquery as pq
headers =
url = ''
r = requests.get(url=url,headers = headers)
demo = r.text
soup = pq(demo)
src = soup('.box.picblock.col3 img')
for i in src:
i = pq(i)
i = i.attr('src2')
print(i)
print(len(src))
右鍵檢查看到的標籤
實際爬取下來的網頁源**
按照這個解析規則,一般就能正確的解析出來需要的內容了。
python反爬技術之User Agent池
基於headers的反爬蟲,從請求頭進行反爬是比較常見的措施,大部分 會對headers中的user agent和referer欄位進行檢測。突破方法就是根據瀏覽器的正常訪問請求頭對爬蟲的請求頭進行修改,盡可能的和瀏覽器保持一致 下面是編寫類來儲存user agent池的功能,下次可以直接呼叫 cl...
Python反爬手段之User Agent池
user agent即使用者 簡稱ua,它是乙個特殊字串頭,使得伺服器能夠識別客戶使用的作業系統及版本 cpu型別 瀏覽器及版本 瀏覽器渲染引擎 瀏覽器語言 瀏覽器外掛程式等。一些 常常通過判斷ua來給不同的作業系統 不同的瀏覽器傳送不同的頁面,因此可能造成某些頁面無法在某個瀏覽器中正常顯示,但通過...
python反爬之封IP
requests是第三方庫,需要安裝 pip install requests import requests 在日常的爬蟲中,封ip也是乙個很常用的反爬蟲手段,遇到這種情況,我們只需要在每次請求的時候為每個請求指定乙個ip位址即可 url 這裡指定ip,當然這只是個示範,獲取 ip有這幾個途徑 付...