python爬蟲面試精選01集

2021-10-08 08:27:20 字數 1371 閱讀 6891

python學習目錄傳送門

初級爬蟲專題

自動化爬蟲面試專題

scrapy面試專題

​ 1.socket 建立乙個套接字

​ 2.bind 繫結 ip 和 port

​ 3.listen 使套接字變為可以被動鏈結

​ 4.accept 等待客戶端的鏈結

​ 5.recv/send 接收傳送資料

​ (1)msl:報文最大生存時間」,他是任何報文在網路上存在的最長時間,超過這個時間報文將被丟棄。

​ (2)ttl:ttl 是 time to live 的縮寫,中文可以譯為「生存時間」,這個生存時間是由源主機設定初始值但不是存的具體時間,而是儲存了乙個 ip 資料報可以經過的最大路由數,每經過乙個處理他的路由器此值就減 1,當此值為 0 則資料報將被丟棄,同時傳送 icmp 報文通知源主機。rfc 793 中規定 msl 為 2 分鐘,實際應用中常用的是 30 秒,1 分鐘和 2 分鐘等。ttl 與 msl 是有關係的但不是簡單的相等的關係,msl要大於等於 ttl。

​ (3)rtt: rtt 是客戶到伺服器往返所花時間(round-trip time,簡稱 rtt),tcp 含有動態估算 rtt 的演算法。tcp 還持續估算乙個給定連線的 rtt,這是因為 rtt受網路傳輸擁塞程式的變化而變化。

## https 是如何實現安全傳輸資料

國外:

post:

應用場合:

get:

http 請求會有哪些資訊傳送到後台伺服器

​ 1、通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器響應

​ 2、如果伺服器能正常響應,會得到乙個response,response的內容比啊是索要獲取的頁面內容

​ 3、解析內容:正規表示式、頁面解析庫、json

​ 4、儲存資料:文字或者存入資料庫

​ ①使用乙個具有登入狀態的 cookie,結合請求報頭一起傳送,可以直接傳送 get 請求,訪問登入後才能訪問的頁面。

​ ②先傳送登入介面的 get 請求,在登入頁面 html 裡獲取登入需要的資料(如果需要的話),然後結合賬戶密碼,再傳送 post 請求,即可登入成功。然後根據獲取的 cookie資訊,繼續訪問之後的頁面

動態網頁反爬蟲

對部分資料進行加密處理的

應對策略

缺點:基於python的爬蟲框架,擴充套件性比較差優點:

理解描述

​ (1)ip

​ (2)頻寬

​ (3)cpu

​ (4)io

如果提取出需要的資料,則交給管道檔案處理;

如果提取出url,則繼續執行之前的步驟(傳送url請求,並由引擎將請求交給排程器入佇列…),直到請求佇列裡沒有請求,程式結束。

python爬蟲筆記01

精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...

Python爬蟲學習01

由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...

python爬蟲學習 01爬蟲介紹

前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...