Python爬蟲 curl的基本用法

2021-10-09 08:51:52 字數 809 閱讀 8891

curl是常用的命令列工具,用來請求 web 伺服器。它的名字就是客戶端(client)的 url 工具的意思。

它的功能非常強大,命令列引數多達幾十種。如果熟練的話,完全可以取代 postman 這一類的圖形介面工具。

注意:安裝的時候可能會遇到報錯,有可能是openssl沒裝

apt install curl

apt install openssl

apt install openssl-dev

一些常用引數的用法

引數說明

示例-a

設定user-agent

curl -a 「chrome」

-x用指定方法請求

curl -x post

-i只返回請求的頭資訊

curl -i

-d以post方法請求url,並傳送相應的引數

curl -d 「a=1&b=2&c=2」

curl -d a=1 -d b=2

-ocurl -o

-ocurl -o fox.jpeg

-l跟隨重定向請求

curl -il

-h設定頭資訊

curl -o image.webp -h 「accept:image/webp」

-k允許發起不安全的ssl請求

curl -k

-b設定cookies

curl -b a=test

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

python爬蟲的基本框架

1.爬蟲的基本流程 通過requests庫的get方法獲得 的url 瀏覽器開啟網頁原始碼分析元素節點 通過beautifulsoup或者正規表示式提取想要的資料 儲存資料到本地磁碟或者資料庫 2.正式開工啦 url page requests.get url 發現返回狀態碼403,說明有問題出現 ...

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...