1.什麼是爬蟲?爬蟲能幹什麼?
爬蟲又稱為網路爬蟲。可以按照指定的規則爬取網路上的資訊。
2.網路爬蟲的分類:
通用網路爬蟲
聚焦網路爬蟲
增量式網路爬蟲
深層網路爬蟲等型別
3.深層網路爬蟲
深層網路爬蟲主要通過6個基本功能的模組和2個爬蟲內部資料結構
6個基本功能的模組:
爬行控制器
解析器表單分析器
表單處理器
響應分析器
lvs控制器
2個爬蟲內部資料結構:
url列表
lvs表 (表示標籤/數值集合),用來填充表單的資料來源
4.網路爬蟲的基本原理
工作流程:
①獲取初始的url,該url位址是使用者自己制定的廚師爬取的網頁
②爬取對應url位址的網頁時,獲取新的url位址
③將新的url位址放入url佇列中
④從url佇列中讀取新的url,然後依據新的url爬取網頁,同時從新的網頁中獲取新的url位址,重複上述的爬取過程。
⑤設定停止條件,如果沒有位置停止條件時,爬蟲會一直爬取下去,知道無法獲取新的url位址為止,設定了停止條件後,爬蟲將會在滿足停止條件時停止爬取
流程圖:
爬蟲 爬蟲初識
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...
爬蟲(一)初識爬蟲
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...
Python爬蟲 初識爬蟲
模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...