1 說說什麼是爬蟲協議?
robots協議(也稱為爬蟲協議、爬蟲規則、機械人協議等)也就是robots.txt,**通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
robots協議是**國際網際網路界通行的道德規範,其目的是保護**資料和敏感資訊、確保使用者個人資訊和隱私不被侵犯。因其不是命令,故需要搜尋引擎自覺遵守。
2 如果對方**反爬取,封ip了怎麼辦?
放慢抓取熟速度,減小對目標**造成的壓力,但是這樣會減少單位時間內的資料抓取量
使用**ip(免費的可能不穩定,收費的可能不划算)
3 有乙個jsonline格式的檔案file
現在要處理乙個大小為10g的檔案,但是記憶體只有4g,如果在只修改get_lines 函式而其他**保持不變的情況下,應該如何實現?需要考慮的問題都有那些?
方法
要考慮的問題有:記憶體只有4g無法一次性讀入10g檔案,需要分批讀入分批讀入資料要記錄每次讀入資料的位置。分批每次讀取資料的大小,太小會在讀取操作花費過多時間。
4 補充缺失的**
5 輸入日期, 判斷這一天是這一年的第幾天?
2020最新最全Python面試題整理(五)
1 描述一下scrapy框架的執行機制?2 寫爬蟲使用多程序好,還是用多執行緒好?3 常見的反爬蟲和應對方法?基於使用者行為,同乙個ip段時間多次訪問同一頁面 利用 ip,構建ip池 請求頭里的user agent 構建user agent池 作業系統 瀏覽器不同,模擬不同使用者 動態載入 抓到的資...
2020最新最全Python面試題整理(七)
1 打亂乙個排好序的list物件alist?import random alist 1 2,3 4,5 random.shuffle alist print alist 2 現有字典 d 請按value值進行排序?sorted d.items key lambda x x 1 3 字典推導式 d 4...
2023年最全python面試題
1.python裡面如何實現tuple和list的轉換?答 直接使用tuple和list函式就行了,type 可以判斷物件的型別 2.什麼是lambda函式?它有什麼好處?答 lambda 表示式,通常是在需要乙個函式,但是又不想費神去命名乙個函式的場合下使用,也就是指匿名函式 lambda函式 首...