python爬蟲常見的一些面試題

2021-10-04 16:56:05 字數 1571 閱讀 2706

1. 什麼是爬蟲

2. 什麼是url

3. scrapy的優缺點

缺點:基於 python 的爬蟲框架,擴充套件性比較差,不夠靈活.

4. http和https的區別

5.https如何進行資料傳輸

6. get和post請求的區別

get請求和post請求都是tcp鏈結,本質上並無區別, 但是由於http的規定和瀏覽器/伺服器的限制導致他們在應用過程中體現有所不同:

7. scrapy框架的執行機制

8. 什麼是scrapy_redis分布式爬蟲

9. 實現模擬登入的方式有哪些

10. scrapy的優點

11. scrapy的指紋去重

12. 關係型資料庫和非關係型資料庫區別?

2、擴充套件方式不同

3、對事務性的支援不同

13. 怎麼選擇資料的儲存方式

14. python2和python3的區別

15. 生成器、迭代器、裝飾器

迭代器這些可以直接作用於for迴圈的物件統稱為可迭代物件:iterable

裝飾器

16. 多執行緒和多程序

執行緒:

乙個程式至少擁有乙個程序,乙個程序至少擁有乙個執行緒。程序負責資源的排程和分配,執行緒才是程式真正的執行單元,負責**的執行。

由於全域性解釋鎖(gil)的存在,同一時間點只有乙個執行緒被執行,所以python多執行緒並不是並行執行,因此較適合於i/o密集型程式,多程序並行執行適用於cpu密集型程式:

17. 協程

18. 如何提公升scrapy的爬取效率

降低日誌級別

禁止cookie

禁止重試

19. 一次完整的網路請求

20. tcp的三次握手和四次揮手

四次揮手

21. 常見的反爬,怎麼解決

22. __new__和__init__的區別

23. 對字典排序

alist=[, , ]

sorted(alist,key=lambda keys:keys['age'])

24. request中包含什麼

25. response中包含什麼

26. 常見的http響應狀態碼

python的一些常見用法

1.字典 建立 dict 新增元素 dict 1 a 遍歷 for index in dict print index,dict dict 結果輸出為 1,a 刪除 del dict 1 結果 1 a 這一對key value都被刪除了。不過注意,不能在遍歷字典的時候使用del。一種方法是遍歷的時候...

python爬蟲 一些好用的庫

構造瀏覽器的請求資訊是常用的對付反爬的措施。但大多數人寫乙個帶有請求頭的爬蟲會是這樣寫。headers 此種方式具備兩個較為突出的缺點 構造請求頭時需要到相應網也複製headers資訊,麻煩不說還容易少複製或者多複製內容,造成請求頭出錯,影響程式正常執行 多次使用同一請求頭資訊容易被反爬措施較強的 ...

一些常見的面試筆試題

問題1 構造和析構函式中的虛函式呼叫 答案 虛函式可以在建構函式和析構函式中呼叫,但虛函式此時是靜態繫結 而非動態繫結。問題2 c 中的異常可不可以是引用 答案 異常可以是引用,並且效率高。問題3 tcp狀態中的close wait是什麼狀態 答案 close wait狀態是被動關閉方的乙個狀態,此...