python爬蟲面試精選01集

python學習目錄傳送門

初級爬蟲專題

自動化爬蟲面試專題

scrapy面試專題

1.socket 建立乙個套接字

2.bind 繫結 ip 和 port

3.listen 使套接字變為可以被動鏈結

4.accept 等待客戶端的鏈結

5.recv/send 接收傳送資料

（1）msl：報文最大生存時間」，他是任何報文在網路上存在的最長時間，超過這個時間報文將被丟棄。

（2）ttl：ttl 是 time to live 的縮寫，中文可以譯為「生存時間」，這個生存時間是由源主機設定初始值但不是存的具體時間，而是儲存了乙個 ip 資料報可以經過的最大路由數，每經過乙個處理他的路由器此值就減 1，當此值為 0 則資料報將被丟棄，同時傳送 icmp 報文通知源主機。rfc 793 中規定 msl 為 2 分鐘，實際應用中常用的是 30 秒，1 分鐘和 2 分鐘等。ttl 與 msl 是有關係的但不是簡單的相等的關係，msl要大於等於 ttl。

（3）rtt： rtt 是客戶到伺服器往返所花時間（round-trip time，簡稱 rtt），tcp 含有動態估算 rtt 的演算法。tcp 還持續估算乙個給定連線的 rtt，這是因為 rtt受網路傳輸擁塞程式的變化而變化。

##　https 是如何實現安全傳輸資料

國外：

post:

應用場合：

get：

http 請求會有哪些資訊傳送到後台伺服器

1、通過http庫向目標站點發起請求，即傳送乙個request，請求可以包含額外的headers等資訊，等待伺服器響應

2、如果伺服器能正常響應，會得到乙個response，response的內容比啊是索要獲取的頁面內容

3、解析內容：正規表示式、頁面解析庫、json

4、儲存資料：文字或者存入資料庫

①使用乙個具有登入狀態的 cookie，結合請求報頭一起傳送，可以直接傳送 get 請求，訪問登入後才能訪問的頁面。

②先傳送登入介面的 get 請求，在登入頁面 html 裡獲取登入需要的資料（如果需要的話），然後結合賬戶密碼，再傳送 post 請求，即可登入成功。然後根據獲取的 cookie資訊，繼續訪問之後的頁面

動態網頁反爬蟲

對部分資料進行加密處理的

應對策略

缺點：基於python的爬蟲框架，擴充套件性比較差優點：

理解描述

（1）ip

（2）頻寬

（3）cpu

（4）io

如果提取出需要的資料，則交給管道檔案處理；

如果提取出url，則繼續執行之前的步驟（傳送url請求，並由引擎將請求交給排程器入佇列…)，直到請求佇列裡沒有請求，程式結束。

python爬蟲面試精選01集

python爬蟲筆記01

Python爬蟲學習01

python爬蟲學習 01爬蟲介紹

python爬蟲面試精選01集

python爬蟲筆記01

Python爬蟲學習01

python爬蟲學習 01爬蟲介紹

相關推薦