Python爬蟲（一）了解爬蟲

爬蟲即網路爬蟲，即將網上的資源抓取下來。比如在抓取乙個網頁，在這個網中發現一條道路，這個道路就是指向網頁的超連結那就可以抓到該網的資源

瀏覽網頁的過程其實就是使用者輸入**之後，經過dns伺服器，找到伺服器主機，向伺服器發出乙個請求，伺服器經過解析之後，傳送給使用者的瀏覽器html,js,css等檔案，瀏覽器解析出來，便是使用者看到的介面。

所以說使用者看到的網頁實質是用html構成，爬蟲爬取的也就是這些內容，通過**將**過濾，實現對資源的獲取

統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示，是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url，它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

url格式組成部分

1.第一部分是協議

http——超文字傳輸協議資源

https——用安全套接字層傳送的超文字傳輸協議

ftp——檔案傳輸協議

mailto——電子郵件位址

ldap——輕型目錄訪問協議搜尋

file——當地電腦或網上分享的檔案

news——usenet新聞組

gopher——gopher協議

telnet——telnet協議

2.第二部分是存有該資源的主機ip位址（有時也包括埠號）

3.第三部分是主機資源的具體位址，比如檔名

Python爬蟲（一） 了解爬蟲