hyper text markup language(html)超文字標記語言,是用來描述網頁的一種語言。
那麼標記語言又是什麼呢?標記語言就是把文字和文字以外的相關資訊(例如大小,高度,顏色,位置等)組合在一起的語言
功能:用於網頁的編寫和修改。
我們學習html的階段:看懂、修改、編寫。
學習爬蟲要掌握的html:看懂簡單的html**並學會修改、提取資訊。
->全域性宣告,告訴瀏覽器處理的檔案是html檔案
>
---------->html檔案開始
>
------>文件頭開始
***網頁頭的具體內容***
head
>
----->文件頭結束
>
------>文件體(開始)
***網頁體的具體內容***
body
>
----->文件體(結束)
html
>
--------->html檔案結束
html文件主要由元素組成,分別有:
!doctype html是乙個全域性宣告,目的是告訴瀏覽器,你現在處理的這個文件是html文件。
html元素(html /html)。
head頭元素(head /head)。
body主體元素(body /body)。
頭部元素( head —— /head)內,一般會被用來設定網頁的編碼,新增網頁標籤的小logo,小標題,外部檔案引用
html文件的主體元素(《body》《/body》)負責定義網頁視窗內的所有內容。(significance should be attached here.)
首先,標籤是個什麼東西呢?
凡是用尖括號包裹起來的都算是標籤,顧名思義,標籤就是用於標記文字資訊的,但是按照形式,它們有:
閉合標籤基本上都是成對出現,有開始也有結束。
>
html
>
>
div>
>
form
>
同樣,空標籤就是沒有成對出現,孤苦伶仃的標籤。
/>
標籤/>
鏈結標籤
/>
input標籤。
html續篇及初識爬蟲
作用 能夠獲取前端使用者輸入的資訊傳送給後端 以使用者註冊為例 form表單重要的幾個引數 action 控制資料提交到哪個後端 method 控制朝後端提交的請求方法 form表單預設使用的是get請求 獲取使用者輸入需要使用input標籤 input標籤一般情況下需要結合label標籤一起使用 ...
爬蟲 爬蟲初識
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...
爬蟲(一)初識爬蟲
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...