爬蟲學習初識HTML

hyper text markup language（html）超文字標記語言，是用來描述網頁的一種語言。

那麼標記語言又是什麼呢？標記語言就是把文字和文字以外的相關資訊（例如大小，高度，顏色，位置等）組合在一起的語言

功能：用於網頁的編寫和修改。

我們學習html的階段：看懂、修改、編寫。

學習爬蟲要掌握的html：看懂簡單的html**並學會修改、提取資訊。

->全域性宣告,告訴瀏覽器處理的檔案是html檔案
>
---------->html檔案開始
>
------>文件頭開始
***網頁頭的具體內容***
head
>
----->文件頭結束
>
------>文件體（開始）
***網頁體的具體內容***
body
>
----->文件體（結束）
html
>
--------->html檔案結束

html文件主要由元素組成，分別有：

!doctype html是乙個全域性宣告，目的是告訴瀏覽器，你現在處理的這個文件是html文件。

html元素（html /html）。

head頭元素（head /head）。

body主體元素（body /body）。

頭部元素（ head —— /head）內，一般會被用來設定網頁的編碼，新增網頁標籤的小logo，小標題，外部檔案引用

html文件的主體元素（《body》《/body》）負責定義網頁視窗內的所有內容。（significance should be attached here.)

首先，標籤是個什麼東西呢？

凡是用尖括號包裹起來的都算是標籤，顧名思義，標籤就是用於標記文字資訊的，但是按照形式，它們有：

閉合標籤基本上都是成對出現，有開始也有結束。

>
html
>
>
div>
>
form
>

同樣，空標籤就是沒有成對出現，孤苦伶仃的標籤。

/>
標籤/>
鏈結標籤
/>
input標籤。

html續篇及初識爬蟲

作用能夠獲取前端使用者輸入的資訊傳送給後端以使用者註冊為例 form表單重要的幾個引數 action 控制資料提交到哪個後端 method 控制朝後端提交的請求方法 form表單預設使用的是get請求獲取使用者輸入需要使用input標籤 input標籤一般情況下需要結合label標籤一起使用 ...

爬蟲爬蟲初識

網路爬蟲又被稱為網頁蜘蛛，網路機械人是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼，通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料。發起請求通過http庫向目標站點發起請求，也就是傳送乙個request，請求可以包含額外的header等資訊，等待伺服器...

爬蟲（一）初識爬蟲

網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬瀏覽器傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器客戶端能做的事情，爬蟲都能夠做爬蟲的工作流程 robots協議通過robots協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是...

爬蟲學習 初識HTML

html續篇及初識爬蟲

爬蟲 爬蟲初識

爬蟲（一）初識爬蟲

相關推薦

爬蟲學習初識HTML

爬蟲爬蟲初識