網路爬蟲(web crawler),也叫做網路蜘蛛(spider), 是一種用來自動瀏覽全球資訊網的網路機械人。如果我們將全球資訊網比作一張網,每個網頁就是其中的乙個節點,節點之間的連線就是網頁之間的鏈結關係,網路爬蟲就是通過訪問節點,獲取了資訊,並繼續通過鏈結向下乙個節點爬取,一步步獲得整個網路的資訊。
網路爬蟲按照系統結果和實現技術,大致可以分為:
robots協議的全稱是「網路爬蟲排除標準」,該協議是國際網際網路界通行的道德規範,建議大家遵守,不做強制要求。
robots.txt通常存在於web伺服器的頂級目錄中,當爬蟲想要爬取乙個網頁的時候,會首先檢查robots.txt 檔案。
robots.txt檔案的用法:
精緻網路爬蟲訪問**的任何部分
user-agent: * # 允許所有的搜尋引擎訪問
disallow: / # 不允許訪問除規定以外的其他頁面
# disallow: # 允許訪問**的任何部分
排除單個爬蟲
user-agent: badbot
disallow: /
utl和uri
uri 叫統一資源標誌符,url叫統一資源定位符。乙個鏈結既是乙個url也是uri,但有時uri不但定位資源還命名資源,而url只定位資源。
超文字
超文字英文名叫:hypertext,我們在瀏覽器裡面看到的網頁是一系列的html**,被瀏覽器解析之後便成了我們平常看到的網頁,而網頁的源**html就可以稱作超文字。
http和https
網頁鏈結的開頭都會有http或https(列:這是訪問資源需要的協議型別。當然也有其他的,如:ftp、sftp、smb。但我們通常所遇到的就是http和https兩種。
http中文叫超文字傳輸協議,用於從網路傳輸超文字資料到本地瀏覽器的傳送協議,它能保證高效而準確的傳輸文字文件。
https是以安全為目標的http通道,相當於就是http的安全版,是在http下加入了ssl層,所以叫https。
我們在瀏覽器中輸入乙個**之後,瀏覽器中便會出現內容,實際上這裡面包含了乙個請求、響應的過程。
請求
請求是由客服端像伺服器傳送的
**分類
http**伺服器,主要用於訪問網頁,一般有內容過濾和快取的功能,埠一般是80、8080、3128.
ssl/tls**,主要用於訪問加密**,一般有ssl或tls加密功能,埠一般是443
telnet**,主要用於telnet遠端控制(黑客入侵計算時常用語隱藏省份),埠一般是23
pop3/smtp**,主要用於pop3/smtp方式收發郵件,一般具有快取功能,埠一般是110/25.
socks**,只是單純的傳遞資料報,不關心協議和用法,所以速度很快,分為socks4和socks45,埠一般是1080
@快樂是一切
Python網路爬蟲基礎知識學習
對python 有一些簡單了解的朋友都知識 python 程式語言有個很強大的功能,那就是 python網路爬蟲 一提到python 就會想到相關的 python 爬蟲和scrapy 等等,今天就來簡單認識學習 python 爬蟲的基礎知識,有了一定的相關爬蟲知識,以後學習 scrapy urlli...
爬蟲基礎知識
大資料時代,要進行資料分析,首先要有資料來源。而學習爬蟲,可以讓我們獲取更多的資料來源,並且這些資料來源可以按我們的目的進行採集,去掉很多無關資料。網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...
Python網路爬蟲 原理及基礎知識
爬蟲步驟 1.獲取網頁,使用urllib,requests等第三方庫構造http請求 2.提取資訊,使用正規表示式或者beautifulsoup,pyquery,lxml等工具分析網頁原始碼,提取所需要的資料 3.儲存資料,mongodb,mysql等多種工具 4.自動化程式,抓取過程中的批處理,異...