html續篇及初識爬蟲

作用：能夠獲取前端使用者輸入的資訊傳送給後端以使用者註冊為例 form表單重要的幾個引數 action 控制資料提交到哪個後端 method 控制朝後端提交的請求方法 form表單預設使用的是get請求獲取使用者輸入需要使用input標籤 input標籤一般情況下需要結合label標籤一起使用但是不配合也不影響使用者名稱: input標籤 type屬性 text 普通文字 password 密文展示 date 日期 radio 單選 checkbox 多選 redio和checkbox如果要設定預設選中加checked即可 file 上傳檔案 email 獲取郵箱格式 submit 觸發提交資料的動作 button 普通按鈕本身沒有任何功能 reset 重置輸入 select標籤下拉框乙個個選項就是乙個個的option標籤預設是單選的加上multiple變為多選預設選中加selected textarea標籤

獲取大段的文字輸入

id 類似於身份證號同乙個html頁面中id不能重複 class

類似於物件導向裡面的類的繼承乙個標籤可以有多個類

爬蟲的基本流程
傳送請求   獲取響應  解析內容  儲存資料
requests模組
能夠模擬瀏覽器傳送請求 比urllib模組更加方便
pip3 install requests
# pip3 install django== 1.11.11
基本使用
import requests
# requests.get() # 朝服務端傳送get請求
# requests.post() # 朝服務端傳送post請求    # res=requests.get("") 
# res.encoding='utf-8' # 修改編碼
# print(res.text) # 獲取頁面html**
# with open(r'獲取頁面.html','w',encoding='utf-8')
as f:
# f.write(res.text)
加請求頭
headers
加攜帶的引數
params
如果涉及到轉碼需要模組
from urllib.parse import urlencode
res1 = urlencode(params,encoding='utf-8')
print(res1)
wd=%e7%be%8e%e5%a5%b3

1.校驗當前請求者是否是乙個瀏覽器請求來了之後我們會先取請求頭裡面檢視是否有攜帶user-agent引數，如果攜帶了說明是乙個瀏覽器如過沒攜帶說明你是乙個程式 2.校驗你當前的請求是否是本**發出的 referer： # 從哪兒來請求來了之後會去請求頭中校驗referer判斷後面的**是否輸入我們的**的如果不是也不會拒絕

防盜煉

http協議四大特性 1.基於tcp/ip作用於應用層之上的協議 2.基於請求響應 3.無狀態 4.無連線無狀態不儲存使用者狀態，所有的使用者無論來多少次對於服務端來說都是初見針對無狀態的特點我們需要找到一種可以記錄客戶端狀態的方法 cookie 儲存在客戶端瀏覽器上面的鍵值對就拿登入功能舉例當你第一次輸入了使用者名稱和密碼之後我的服務端會給你返回乙個隨機字串你儲存在瀏覽器上之後再訪問服務端的時候你把這個隨機字串帶給我我來校驗這個字串跟我之前給你這個使用者的是否 username jason password 123 session 儲存在服務端上面的鍵值對給客戶端乙個隨機的字串

html續篇及初識爬蟲

爬蟲學習初識HTML

爬蟲爬蟲初識

爬蟲（一）初識爬蟲

html續篇及初識爬蟲

爬蟲學習 初識HTML

爬蟲 爬蟲初識

爬蟲（一）初識爬蟲

相關推薦

爬蟲學習初識HTML

爬蟲爬蟲初識