1 描述一下scrapy框架的執行機制?2 寫爬蟲使用多程序好,還是用多執行緒好?3 常見的反爬蟲和應對方法?
基於使用者行為,同乙個ip段時間多次訪問同一頁面 利用**ip,構建ip池
請求頭里的user-agent 構建user-agent池(作業系統、瀏覽器不同,模擬不同使用者)
動態載入(抓到的資料和瀏覽器顯示的不一樣),js渲染 模擬ajax請求,返回json形式的資料
selenium / webdriver 模擬瀏覽器載入
對抓到的資料進行分析
加密引數字段 會話跟蹤【cookie】 防盜煉設定【referer
4 分布式爬蟲主要解決什麼問題?
面對海量待抓取網頁,只有採用分布式架構,才有可能在較短時間內完成一輪抓取工作。
它的開發效率是比較快而且簡單的。
5 如何提高爬取效率?
2020最新最全Python面試題整理(七)
1 打亂乙個排好序的list物件alist?import random alist 1 2,3 4,5 random.shuffle alist print alist 2 現有字典 d 請按value值進行排序?sorted d.items key lambda x x 1 3 字典推導式 d 4...
2020最新最全Python面試題整理(六)
1 說說什麼是爬蟲協議?robots協議 也稱為爬蟲協議 爬蟲規則 機械人協議等 也就是robots.txt,通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議是 國際網際網路界通行的道德規範,其目的是保護 資料和敏感資訊 確保使用者個人資訊和隱私不被侵犯。因其不是...
2023年最全python面試題
1.python裡面如何實現tuple和list的轉換?答 直接使用tuple和list函式就行了,type 可以判斷物件的型別 2.什麼是lambda函式?它有什麼好處?答 lambda 表示式,通常是在需要乙個函式,但是又不想費神去命名乙個函式的場合下使用,也就是指匿名函式 lambda函式 首...