爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源瀏覽網頁的過程其實就是使用者輸入**之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案,瀏覽器解析出來,便是使用者看到的介面。
所以說使用者看到的網頁實質是用html構成,爬蟲爬取的也就是這些內容,通過**將**過濾,實現對資源的獲取
統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的位址。網際網路上的每個檔案都有乙個唯一的url,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。
url格式組成部分
1.第一部分是協議
http——超文字傳輸協議資源
https——用安全套接字層傳送的超文字傳輸協議
ftp——檔案傳輸協議
mailto——電子郵件位址
ldap——輕型目錄訪問協議搜尋
file——當地電腦或網上分享的檔案
news——usenet新聞組
gopher——gopher協議
telnet——telnet協議
2.第二部分是存有該資源的主機ip位址(有時也包括埠號)
3.第三部分是主機資源的具體位址,比如檔名
Python爬蟲入門(2) 爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...
Python爬蟲入門二之爬蟲基礎了解
靜覓 python爬蟲入門二之爬蟲基礎了解 爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超...
Python爬蟲入門二之爬蟲基礎了解
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...