Python爬蟲 curl的基本用法

curl是常用的命令列工具，用來請求 web 伺服器。它的名字就是客戶端（client）的 url 工具的意思。

它的功能非常強大，命令列引數多達幾十種。如果熟練的話，完全可以取代 postman 這一類的圖形介面工具。

注意：安裝的時候可能會遇到報錯，有可能是openssl沒裝

apt install curl

apt install openssl

apt install openssl-dev

一些常用引數的用法

引數說明

示例-a

設定user-agent

curl -a 「chrome」

-x用指定方法請求

curl -x post

-i只返回請求的頭資訊

curl -i

-d以post方法請求url，並傳送相應的引數

curl -d 「a=1&b=2&c=2」

或

curl -d a=1 -d b=2

-ocurl -o

-ocurl -o fox.jpeg

-l跟隨重定向請求

curl -il

-h設定頭資訊

curl -o image.webp -h 「accept:image/webp」

-k允許發起不安全的ssl請求

curl -k

-b設定cookies

curl -b a=test

python爬蟲流程主要分為三個部分 1 獲取網頁 2 解析網頁獲取資料儲存資料三個流程的技術實現 1.獲取網頁獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術多執行緒抓取登入抓取突破ip限制和伺服器抓取 2.解析網頁解析網頁的技術基礎 re...

1.爬蟲的基本流程通過requests庫的get方法獲得的url 瀏覽器開啟網頁原始碼分析元素節點通過beautifulsoup或者正規表示式提取想要的資料儲存資料到本地磁碟或者資料庫 2.正式開工啦 url page requests.get url 發現返回狀態碼403，說明有問題出現 ...

網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻自動索引模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料模擬瀏覽器開啟...