python學習目錄傳送門
初級爬蟲專題
自動化爬蟲面試專題
scrapy面試專題
1.socket 建立乙個套接字
2.bind 繫結 ip 和 port
3.listen 使套接字變為可以被動鏈結
4.accept 等待客戶端的鏈結
5.recv/send 接收傳送資料
(1)msl:報文最大生存時間」,他是任何報文在網路上存在的最長時間,超過這個時間報文將被丟棄。
(2)ttl:ttl 是 time to live 的縮寫,中文可以譯為「生存時間」,這個生存時間是由源主機設定初始值但不是存的具體時間,而是儲存了乙個 ip 資料報可以經過的最大路由數,每經過乙個處理他的路由器此值就減 1,當此值為 0 則資料報將被丟棄,同時傳送 icmp 報文通知源主機。rfc 793 中規定 msl 為 2 分鐘,實際應用中常用的是 30 秒,1 分鐘和 2 分鐘等。ttl 與 msl 是有關係的但不是簡單的相等的關係,msl要大於等於 ttl。
(3)rtt: rtt 是客戶到伺服器往返所花時間(round-trip time,簡稱 rtt),tcp 含有動態估算 rtt 的演算法。tcp 還持續估算乙個給定連線的 rtt,這是因為 rtt受網路傳輸擁塞程式的變化而變化。
## https 是如何實現安全傳輸資料
國外:
post:
應用場合:
get:
http 請求會有哪些資訊傳送到後台伺服器
1、通過http庫向目標站點發起請求,即傳送乙個request,請求可以包含額外的headers等資訊,等待伺服器響應
2、如果伺服器能正常響應,會得到乙個response,response的內容比啊是索要獲取的頁面內容
3、解析內容:正規表示式、頁面解析庫、json
4、儲存資料:文字或者存入資料庫
①使用乙個具有登入狀態的 cookie,結合請求報頭一起傳送,可以直接傳送 get 請求,訪問登入後才能訪問的頁面。
②先傳送登入介面的 get 請求,在登入頁面 html 裡獲取登入需要的資料(如果需要的話),然後結合賬戶密碼,再傳送 post 請求,即可登入成功。然後根據獲取的 cookie資訊,繼續訪問之後的頁面
動態網頁反爬蟲
對部分資料進行加密處理的
應對策略
缺點:基於python的爬蟲框架,擴充套件性比較差優點:
理解描述
(1)ip
(2)頻寬
(3)cpu
(4)io
如果提取出需要的資料,則交給管道檔案處理;
如果提取出url,則繼續執行之前的步驟(傳送url請求,並由引擎將請求交給排程器入佇列…),直到請求佇列裡沒有請求,程式結束。
python爬蟲筆記01
精通python網路爬蟲 筆記 下面 大部分來自此書,僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案 示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部,賦予...
Python爬蟲學習01
由於自身對python有比較大的興趣,但是畢竟 有業務需求才能推動學習 在休息的時候看了幾天的基礎,對python的基礎還是可以掌握的,但是一些api的方法確實沒有多大興趣,畢竟乙個乙個api的學習python這種方法,於我而言,確實想睡覺,所以我想以乙個點帶面的學習python,爬蟲是python...
python爬蟲學習 01爬蟲介紹
前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...