爬蟲學習 初識HTML

2021-10-09 01:24:57 字數 1249 閱讀 8331

hyper text markup language(html)超文字標記語言,是用來描述網頁的一種語言

那麼標記語言又是什麼呢?標記語言就是把文字和文字以外的相關資訊(例如大小,高度,顏色,位置等)組合在一起的語言

功能:用於網頁的編寫和修改。

我們學習html的階段:看懂、修改、編寫。

學習爬蟲要掌握的html:看懂簡單的html**並學會修改、提取資訊。

->全域性宣告,告訴瀏覽器處理的檔案是html檔案

>

---------->html檔案開始

>

------>文件頭開始

***網頁頭的具體內容***

head

>

----->文件頭結束

>

------>文件體(開始)

***網頁體的具體內容***

body

>

----->文件體(結束)

html

>

--------->html檔案結束

html文件主要由元素組成,分別有:

!doctype html是乙個全域性宣告,目的是告訴瀏覽器,你現在處理的這個文件是html文件。

html元素(html /html)。

head頭元素(head /head)。

body主體元素(body /body)。

頭部元素( head —— /head)內,一般會被用來設定網頁的編碼,新增網頁標籤的小logo,小標題,外部檔案引用

html文件的主體元素(《body》《/body》)負責定義網頁視窗內的所有內容。(significance should be attached here.)

首先,標籤是個什麼東西呢?

凡是用尖括號包裹起來的都算是標籤,顧名思義,標籤就是用於標記文字資訊的,但是按照形式,它們有:

閉合標籤基本上都是成對出現,有開始也有結束。

>

html

>

>

div>

>

form

>

同樣,空標籤就是沒有成對出現,孤苦伶仃的標籤。

/>

標籤/>

鏈結標籤

/>

input標籤。

html續篇及初識爬蟲

作用 能夠獲取前端使用者輸入的資訊傳送給後端 以使用者註冊為例 form表單重要的幾個引數 action 控制資料提交到哪個後端 method 控制朝後端提交的請求方法 form表單預設使用的是get請求 獲取使用者輸入需要使用input標籤 input標籤一般情況下需要結合label標籤一起使用 ...

爬蟲 爬蟲初識

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...