爬蟲面試python

1. 什麼是爬蟲

2. 什麼是url

3. scrapy的優缺點

缺點：基於 python 的爬蟲框架，擴充套件性比較差，不夠靈活.

4. http和https的區別

5.https如何進行資料傳輸

6. get和post請求的區別

get請求和post請求都是tcp鏈結,本質上並無區別, 但是由於http的規定和瀏覽器/伺服器的限制導致他們在應用過程中體現有所不同:

7. scrapy框架的執行機制

8. 什麼是scrapy_redis分布式爬蟲

9. 實現模擬登入的方式有哪些

10. scrapy的優點

11. scrapy的指紋去重

12. 關係型資料庫和非關係型資料庫區別？

2、擴充套件方式不同

3、對事務性的支援不同

13. 怎麼選擇資料的儲存方式

14. python2和python3的區別

15. 生成器、迭代器、裝飾器

迭代器這些可以直接作用於for迴圈的物件統稱為可迭代物件：iterable

裝飾器16. 多執行緒和多程序

執行緒：

乙個程式至少擁有乙個程序，乙個程序至少擁有乙個執行緒。程序負責資源的排程和分配，執行緒才是程式真正的執行單元，負責**的執行。

由於全域性解釋鎖(gil)的存在,同一時間點只有乙個執行緒被執行,所以python多執行緒並不是並行執行，因此較適合於i/o密集型程式，多程序並行執行適用於cpu密集型程式：

17. 協程

18. 如何提公升scrapy的爬取效率

降低日誌級別

禁止cookie

禁止重試

19. 一次完整的網路請求

20. tcp的三次握手和四次揮手

四次揮手

21. 常見的反爬，怎麼解決

22. __new__和__init__的區別

23. 對字典排序

alist=[, , ]
sorted(alist,key=lambda keys:keys['age'])

24. request中包含什麼

25. response中包含什麼

26. 常見的http響應狀態碼

Python 爬蟲面試總結分享

q1.你遇到的比較難的爬蟲問題?q2.請求一定頁數後就會被封如何應對？a 這個時候，我們會估算一下，多少頁之後會封，然後換cookie繼續。q3.有的時候請求到空資料，a 這個問題已經發現我是爬蟲了，看看我的是不是過期了，看看cookie是不是過期了,看看是不是有referer欄位反爬,找不到規律...

Python面試重點（爬蟲篇）

注意只有必答題部分計算分值，補充題不計算分值。注意第31題1分，其他題均每題3分。了解哪些基於爬蟲相關的模組？requests urllib lxml bs4 selenium 常見的資料解析方式？re lxml bs4 列舉在爬蟲過程中遇到的哪些比較難的反爬機制？引數加密資料加密簡述如何抓...

真實 Python 爬蟲面試題

閱讀文字大概需要 5 分鐘。就在昨天我面試了，來到上海之後面試的第一家公司，面試過程挺順利，不出意外今天下午就會收到 offer。面試完之後，我走在路上，整個人都是在傻笑的狀態，路人一臉關愛智障的眼神，但我還是非常的開心。自己一路自學過來，不知道遇到多少 bug，不知道有多少個深夜，還在敲不知道有...

爬蟲面試python

Python 爬蟲面試總結分享

Python面試重點（爬蟲篇）

真實 Python 爬蟲面試題

相關推薦