爬蟲分為垂直爬蟲;全網爬蟲兩種;
①爬蟲的基礎架構:
資料解析:資料解析技術分別有四種:
dom:最原始最基礎需要將所有資訊都載入到記憶體裡對記憶體消耗比較大,如果xml檔案比較大,容易影響解析的效能,可能會造成記憶體溢位。應用程式通過dom介面,應用程式在任何時候都能訪問xmlwendan文件中的任何資料,又稱為隨機訪問機制;
sax:也是xml簡單應用程式介面,與dom不同訪問模式是一直種順序模式,是一種快速讀寫xml資料方式,當時用sax解析時會觸發一系列的事件並激發一系列事件處理函式應用程式通過這些處理函式實現對xml 文件的訪問,事件驅動介面。
採用事件驅動模式對記憶體消耗比較小,只適用於處理xml檔案。但是編碼比較麻煩,很難同時訪問xml 檔案處的不同資料。
jdom :僅僅使用的是具體類而不是使用介面。api大量使用collections類。
dom4j :jdom的一種智慧型分支,合併了許多超出基本xml文件表現功能,使用介面和抽象基本類方法。具有效能優化,靈活性好,,功能強大和極端易用的,是乙個開放原始碼檔案。
xpath:使用正則的方式在網頁上提取。
本爬蟲運用的是xpath+htmlcleaner
資料儲存:mysql hbase es
②爬蟲的公升級架構:
建立爬蟲專案
主要四個步驟 1.執行scrapy startproject project name 建立專案框架 執行 scrapy genspider spider name domain.com 建立爬蟲基本格式檔案 2.編輯items item.py檔案明確獲取的資料字段 3.編寫spiders 目錄下的...
爬蟲小專案
將爬取到的資料儲存在csv檔案中 由於習慣 作者會將獲取到的資料儲存 然後在儲存的檔案中進行匹配 這樣會降低程式執行時間 import requests from lxml import html from bs4 import beautifulsoup url headers res reque...
爬蟲專案學習
思維方式 線性思維方式與發散思維方式 軟體開發思想 模組思維 漸進式開發 生成需求說明文件 內容 對需求中不明確或不完善的說明進行解釋 功能點 附加要求 效能要求 業務設計 如何思考並完成設計?從頂層開始思考並設計,避免過早陷入細節 系統最簡單資料流 系統設計 設計階段必不可少,設計可以明確思路,提...