爬蟲 基礎理論知識(一)

2021-09-23 15:23:24 字數 1273 閱讀 3572

4.所有的目標url全部請求完畢,爬蟲結束

搜尋引擎需要遵守robot協議:

搜尋引擎的缺點:

b.搜尋引擎搜尋的結果千篇一律,沒有辦法根據特定的使用者,獲取特定的資料

c.搜尋引擎搜尋結果99%並沒用

目的:實現不同的系統互聯之間的資料通訊,實現資料的傳輸

2.表示層:

3.會話層:

4.傳輸層:

5.網路層:

6.資料鏈路層:

7.物理層:

uri:統一資源識別符號

urn:統一資源名稱

url:統一資源定位符

uri是urn和url的父類

url的組成部分:

scheme:指的是協議(https/http)

host:指的是伺服器的ip或者網域名稱

port:指的是埠號

path:資源路徑

query_string:url位址後面的查詢引數

anchor(錨點):可以指定要跳轉的位置

get:只是用於伺服器獲取資料,在url後面可能會跟一些查詢引數

post:向伺服器端提交資料,資料會放在請求體中,一般用於新增或修改資料

delete:用來刪除資料

put:更新整個資源(用來資料的更新)

patch:更新資源(區域性資料的更新)

user-agent:這個是設定瀏覽器(設定這個引數模擬瀏覽器請求對方伺服器)

cookie:儲存在客戶端中,儲存的是客戶資訊

referer:告訴對方伺服器當前請求是從哪個介面跳轉過來的(防盜煉)

accept:可以接受的資料型別…

cookie和session:目的是保持回話

http請求是無狀態的,每一次請求斷開後,下一次請求都是新的請求,為了維持請求狀態就用到了cookie和session

cookie:儲存在客戶端的,記錄資訊確定使用者的身份

session:儲存在服務端的,記錄資訊確定使用者的身份

200:請求成功

3xx:重定向

301:永久重定向

302:臨時重定向

4xx:客戶端請求錯誤

400:請求錯誤,伺服器無法解析

401:未授權,沒有進行身份驗證

403:伺服器拒絕訪問

404:訪問的頁面不存在

405:請求方式不允許

408:請求超時

5xx:服務端錯誤

500:服務端內部錯誤

501:伺服器暫時不具備完成請求的功能

503:伺服器不可用

基礎理論知識(五)

1.s,d,f,2f的作用分別是什麼?4分 s 通用佔位符 d 整數型別佔位符 f 小數佔位符 2f 保留兩位小數 2.檔案讀寫的三個基本步驟是什麼?3分 open test.txt w 開啟檔案時,如果檔案不存在會有什麼結果?1分 open test.txt r 開啟檔案時,如果檔案不存在會有什麼...

BGP基礎理論知識

bgp 邊界閘道器路由協議,管理as之間路由傳遞 距離向量型,分布式計算 採用tcp來傳遞路由資訊,埠號179,保障可靠性,但是這樣做了就會喪失鄰居自動發現的功能,只能單播建立鄰居,並且可以非直連建立鄰居關係。bgp設計是用來處理as之間的路由協議重點處理as之間的路由,as之內的路由不作為重點,所...

軟體測試基礎理論知識

軟體測試 描述一種用來促進鑑定軟體的正確性 完整性 安全性和質量的過程。換句話說,軟體測試是一種實際輸出與預期輸出之間的審核或者比較過程。軟體測試的經典定義是 在規定的條件下對程式進行操作,以發現程式錯誤,衡量軟體質量,並對其是否能滿足設計要求進行評估的過程。1.軟體測試的定義 軟體測試就是根據需求...