上次我們從對爬蟲進行簡單的介紹,今天我們引入乙個簡單爬蟲的技術架構,解釋爬蟲技術架構中的幾個模組,對爬蟲先有乙個整體的認知,方便對爬蟲的理解和後面的程式設計。
1、url管理器:防止重複抓取、防止迴圈抓取;url是爬蟲爬取的入口和橋梁,除了入口url外,剩下的url我們需要在網頁上獲取並統一管理,防止重複抓取和防止迴圈抓取。
3).特殊情景處理
3、網頁解析器:從網頁中提取有價值的資料的工具,這是爬蟲的另乙個核心部分。
html網頁字串——>網頁解析器——>價值資料/新url列表
python解析器的種類:正規表示式、html.parser、beautiful soup、lxml(xpath)
4、輸出部分:把爬取的內容輸出到指定的檔案或資料夾,如text檔案、csv檔案、mongodb中等等,方便後續資料處理。
好了,本篇主要是講了乙個簡單的爬蟲架構,讓打家對python爬蟲有個大觀的印象,後面我們繼續**!
Python爬蟲筆記 一 爬蟲基本入門
最近在做乙個專案,這個專案需要使用網路爬蟲從特定 上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。一 何謂網路爬蟲 網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的...
python爬蟲 第乙個爬蟲
1.本地安裝了nginx,在預設的html目錄下建立測試html 如圖,即index.html導向a,b,c 3個html,a.html又可以導向aa,bb兩個html,c.html可以導向cc.html。2.修改nignx配置使得本地可以訪問寫的kmtest裡的index.html。參考文件 ng...
乙個簡單的入門級Python爬蟲
乙個簡易爬蟲,主要功能是爬取全國各地空氣質素資料,輸出到乙個csv檔案,後續加入相關資料處理得出實時空氣質素排名前10和後10的城市及其空氣質素 aqi 使用的是beautifulsoup庫,具體用法參照 import requests from bs4 import beautifulsoup i...