學習Python爬蟲前,需要先掌握哪些知識內容

2022-09-25 22:27:17 字數 916 閱讀 1213

http和https

http協議:

超文字傳輸協議,是乙個發布和接受html頁面的方法,埠是80

https 協議:h協議的加密版本,在http下加上了ssl層,埠是443

下面訪問的是美團的官網:

可以看到埠是443

url和rui

http協議規定了瀏覽器與伺服器進行資料互動過程中必須要選擇一種互動方式

在http協議中定義了8中請求方式,常見的是gwww.cppcns.comet和post請求

get請求: 一般只從伺服器獲取資料下程式設計客棧來,並不會對伺服器資源產生任何的影響。

請求的時候關注:

url請求方式請求頭

post請求: 向伺服器傳送資料(登陸),上傳檔案等,會對伺服器資源產生影響的時候,會使用post請求。

不過有些**做了反爬蟲機制,你去檢視資訊,也是程式設計客棧使用post請求,所以我們寫爬蟲的時候,一定要分析**。

http協議中,向伺服器傳送乙個請求,資料分為三部分:

常見的請求頭引數:

我們要分析的**為: movie.douban.com

在頁面上的呈現的內容,在elements都會有相應的元素。

headers 頭部資訊

session代表的是伺服器和瀏覽器的一次會話過程

session 是一種伺服器端的機制,用來儲存特定使用者的會話所需要的資訊,儲存在記憶體,快取,或者資料庫中。

cookie

cooke是由伺服器端生成後傳送給客戶端,cookie是儲存在客戶端的

cookie原理:

1) 建立cookie

2) 設定儲存cookie

3) 傳送cookie

4) 讀取cookie

本文標題: 學習python爬蟲前,需要先掌握哪些知識內容

本文位址:

python爬蟲學習之獲取貓眼電影排名前10

我們用正規表示式來完成這個任務,並把讀取到的內容寫入到文字中。首先獲取該網頁的html 注意千萬別用開發者模式檢視網頁的原始碼,原始碼可能和response.text不一樣 然後用python的第三方庫,requests庫進行網頁html的爬取 注意 1 在獲取源 之前我們要設定一下user age...

python變數在使用前 必須先

有很多介紹python中各種很酷的功能 如變數拆包 偏函式 列舉可迭代物件 的文章,但說到python時,還有很多東西可以談論,這裡我將嘗試展示我所知道和使用的一些特性,我還沒有在其他地方看到有人提到過它們。我們開始吧。1.清理字串輸入 對使用者輸入進行清理的問題幾乎適用於您編寫的所有程式。通常情況...

python變數在使用前 必須先

python程式設計中經常遇到一些莫名其妙的錯誤,其實這不是語言本身的問題,而是我們忽略了語言本身的一些特性導致的,今天就來看下使用python變數時導致的3個不可思議的錯誤,以後在程式設計中要多多注意。1 可變資料型別作為函式定義中的預設引數 new links page.search for l...