網路爬蟲入門

1.爬蟲的定義

爬蟲是一種抓取網頁資訊的工具

2.爬蟲的三大基本功能：

1.http請求：用於根據url獲取網頁原始碼

2.網頁解析 : 對獲取到的網頁原始碼進行解析，提取出符合需要的url鏈結和網頁內容

3.持久化：對提取到的網頁內容進行儲存（資料庫，檔案，建立索引等）

3.爬蟲的分類及其工作流程

1.單機爬蟲

2.分布式爬蟲

4.爬蟲常見問題及解決方案：

常見問題：

1.網頁爬取頻率過快會被限制爬取

2.部分頁面重定向導致無法直接獲得網頁原始碼

3.ip被加入黑名單

4.獲取網頁原始碼出現亂碼

5.部分頁面由js生成無法直接獲得原始碼

6.控制爬取的深度

7.部分頁面需要登入才能獲取原始碼

對應解決方案：

1.在程式中動態調整爬取速率（執行緒休眠）

2.根據http頭部資訊獲取重定向頁面再次請求

3.切換**ip

4.根據http頭部字段判斷網頁編碼

5.採用三方外掛程式模擬瀏覽器引擎動態載入

6.為每個url新增乙個depth屬性，解析到設計的爬取深度時停止爬取

7.利用cookie模擬登入

8.利用多執行緒爬取，或者考慮分布式爬取

網路爬蟲入門

import urllib.request import re url data urllib.request.urlopen url 返回物件，有各種方法 txt data.read decode utf 8 ignore ignore是為了在爬非utf 8的網頁時不會掛掉主要是不會轉碼 tit...

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫，beautiful soup 安裝該庫 pip3 install beautifulsou...

網路爬蟲之Beautifulsoup入門（二）

開啟beautifulsoup之旅在使用之前，我們還需要配置解析器，本文及之後都使用python自帶的解析器 html.parser 更多解析器介紹及比較可參考本人部落格 beautiful soup4 之table資料提取。我們使用乙個最常見的例子來說明其使用方法 html doc the do...

網路爬蟲入門

網路爬蟲入門

python網路爬蟲入門

網路爬蟲之Beautifulsoup入門（二）

相關推薦