python爬蟲之快速構造標準格式headers

2021-08-08 13:29:19 字數 1914 閱讀 9004

a = '''

accept-encoding:gzip, deflate

accept-language:zh-cn,zh

;q=0.8

cache-control:max-age=0

connection:keep-alive

cookie:uuid_tt_dd=1480340313111808904_20170920; hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1505918405; hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1505918410; dc_tos=owl22x; dc_session_id=1505918405193_0.8442837642502332; __message_sys_msg_id=0; __message_gu_msg_id=0; __message_cnel_msg_id=0; __message_district_code=000000; __message_in_school=0

host:www.csdn

.net

if-modified-since:wed, 20 sep 2017

14:20:09 gmt

if-none-match:w/"59c27919-18436"

upgrade-insecure-requests:1

user-agent:mozilla/5.0 (windows nt 10.0

'''print()

我們在製作爬蟲、編寫自動訪問、使用者名稱密碼爆破等一系列與**自動化互動的指令碼時,往往離不開header頭的製作,從瀏覽器上乙個乙個貼上,然後製作成字典形式,忒費勁,至少俺是這麼想的

自從構造了半自動化生成生成header頭後,腰也不疼了,腿也不酸了,一口氣爬到七樓都不用喘氣了,賊開心

廢話不多說,上圖

在此之前,俺再贅述一下,找到要操作的**

f12(筆者用的是谷歌瀏覽器)- network(如果沒有東西的話,重新整理一下網頁就好了)- 選擇第乙個鏈結 - headers-request headers-複製自己所需要的就好了

上圖

用三引號包裹貼上的headers資訊,因為三引號支援多行文字

以換行符分割

a.split("\n")[1:-1]
此時返回乙個列表,列表元素是各行的字串,後面的切片操作是因為,咱們在賦值a的時候在開頭三引號後面加了回車,結尾的三引號前面加了回車,為了去除這兩個回車

將每乙個的字串以 : (冒號分割),並且指定分割一次

i.split(":",1) for i in

a.split("\n")[1:-1]

此時返回的是n(行數)個列表,每個列表有兩個元素,第乙個是冒號之前的元素,第二個是冒號之後的元素

之所以沒有re模組來進行多個分隔符進行分割的原因就是,冒號的分割只能進行一次,比如header頭裡面的

user-agent: mozilla/5.0 (windows nt 10.0; win64; x64; rv:54.0) gecko/20100101 firefox/54.0

value的值裡面存在了冒號,如果分割多次的話,便會產生bug

將每乙個列表裡的第乙個值作為字典裡面的key,第二個值作為字典裡的value

gameover

筆者特別喜歡用推導式來寫東西,感覺特別有趣,因此在本程式中使用了字典推導式

最後歡迎各位大表哥再次光臨 ^_^

快速學習網頁爬蟲之python

1.首先獲取網頁內容的方法 html requests.get url,headers headers,proxies proxys header 指模擬瀏覽器頭,proxys ip,requests指python獲取內容的物件 2.這樣一句話就可以快速獲取網頁內容了,獲取到了網頁內容,我們還需要進...

Python寫網路爬蟲之 構造和解析URL

4.2 url 拼接和組合 4.3 url的序列化 4.4 url 的反序列化 4.5 url 的格式轉換 編碼 4.6 url 的格式轉換 解碼 當我們想構造乙個網路爬蟲來爬取網路資源的時候,我們要構造乙個 url 讓爬蟲去訪問,然後把資源揹回來。所以我們要學習 url 的相關知識。一般標準的 u...

Python爬蟲之爬蟲概述

知識點 模擬瀏覽器,傳送請求,獲取響應 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。知識點 了解 爬蟲的概念 爬蟲在網際網路世界中有很多的作用,比如 資料採集 抓取招聘 的招聘資訊 資料分析 挖掘...