1.什麼是爬蟲?
按照一定的規則,自動地抓取
全球資訊網資訊的程式或者指令碼。
按照系統結構和實現技術,大致可以分:通用網路爬蟲
、聚焦網路爬蟲
、增量式網路爬蟲
、深層網路爬蟲
。
實際的網路爬蟲系統通常是幾種爬蟲技術相結合
實現的 。
通用網路爬蟲(scalable web crawler):主要為門戶站點
搜尋引擎和大型 web
服務提供商採集資料;特點:1.爬行範圍和數量巨大,對於爬行速度和儲存空間要求較高;
2.對於爬行頁面的順序要求相對較低;
3.由於待重新整理的頁面太多,通常採用並行工作方式,但需要較長時間才能重新整理一次頁面。
聚焦網路爬蟲(focused crawler):選擇性地爬行那些與預先定義好
的主題相關頁面的網路爬蟲特點:1.只需要爬行與主題相關的頁面,極大地節省了硬體和網路資源;
2.儲存的頁面也由於數量少而更新快;
3.可以很好地滿足一些特定人群對特定領域資訊的需求。
2.爬蟲的步驟:
模擬http請求,將請求傳送到目標**;
獲得html;
對獲取到的資料進行解析——提取出我們所需要的部分;
儲存提取出來的資料——檔案/資料庫;
3.如何模擬http傳送請求?
1.urllib.request
中openurl(url)
:常用的方法,對一些沒有設定反爬蟲的**適用;
2.requests
:可以定製header,如果目標物件設定了反爬蟲,就可以使用該方法;
4.如何獲得html?
read()5.如何解析獲取到的資料?
正規表示式;
字串;
beautifulsoup;
6.如何對資料進行儲存?
1.存到檔案中: with open (『a.txt』 ,『w』) as f ;
2. 存到資料庫:mysql pymysql mysql-connector
python爬蟲入門初步認識
python簡單的爬蟲技術,這裡我用的是python3.x版面進行研究,主要對兩個python庫進行操作。在此之前你需要安裝python3.x環境 1 urllib python3.x官方基礎模組 2 beautifulsoup4 python3.x第三方模組 使用前需要安裝beautifulsou...
初步認識繼承
include stdafx.h include using namespace std 構造方式跟類內類物件是一樣的 父類 info 派生類 sci 派生類 sci 父類 info struct info 父類 void outputinfo info info private int numb ...
初步認識redis
1.什麼redis 2.為什麼使用redis 3.什麼場合使用redis 4.redis的好處 5.編譯安裝redis 6.redis資料結構 1.什麼是redis redis是remote dictionary server 遠端資料服務 的縮寫,是義大利人antirez開發的一款記憶體快取記憶體...