1.爬蟲的定義
爬蟲是一種抓取網頁資訊的工具
2.爬蟲的三大基本功能:
1.http請求:用於根據url獲取網頁原始碼
2.網頁解析 : 對獲取到的網頁原始碼進行解析,提取出符合需要的url鏈結和網頁內容
3.持久化:對提取到的網頁內容進行儲存(資料庫,檔案,建立索引等)
3.爬蟲的分類及其工作流程
1.單機爬蟲
2.分布式爬蟲
4.爬蟲常見問題及解決方案:
常見問題:
1.網頁爬取頻率過快會被限制爬取
2.部分頁面重定向導致無法直接獲得網頁原始碼
3.ip被加入黑名單
4.獲取網頁原始碼出現亂碼
5.部分頁面由js生成無法直接獲得原始碼
6.控制爬取的深度
7.部分頁面需要登入才能獲取原始碼
對應解決方案:
1.在程式中動態調整爬取速率(執行緒休眠)
2.根據http頭部資訊獲取重定向頁面再次請求
3.切換**ip
4.根據http頭部字段判斷網頁編碼
5.採用三方外掛程式模擬瀏覽器引擎動態載入
6.為每個url新增乙個depth屬性,解析到設計的爬取深度時停止爬取
7.利用cookie模擬登入
8.利用多執行緒爬取,或者考慮分布式爬取
網路爬蟲入門
import urllib.request import re url data urllib.request.urlopen url 返回物件,有各種方法 txt data.read decode utf 8 ignore ignore是為了在爬非utf 8的網頁時不會掛掉 主要是不會轉碼 tit...
python網路爬蟲入門
from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...
網路爬蟲之Beautifulsoup入門(二)
開啟beautifulsoup之旅 在使用之前,我們還需要配置解析器,本文及之後都使用python自帶的解析器 html.parser 更多解析器介紹及比較可參考本人部落格 beautiful soup4 之table資料提取。我們使用乙個最常見的例子來說明其使用方法 html doc the do...