python的爬蟲基礎介紹

一：爬蟲是什麼

爬蟲從乙個url出發，訪問與它相關的url，自動訪問網際網路並提取資料的程式

python爬蟲的**架構：

二：url管理器

概念：管理待抓取的url集合和已抓取的url的集合

主要目的是防止重複抓取

url管理器將url集合可以放到３個地方：

１，python的記憶體中：存到set中。set（）是python的一種資料結構呀，裡面的元素不重複且沒有順序　　　適合小型公司

２，關聯式資料庫中（mysql），主要原理：建立乙個表，將url永久儲存

３，快取資料庫（redis）支援set　　　支援大型資料

１，urllib是python提供的基礎模組

２，requests是python的第三方包，更加強大

１，用urllib.request.urlopen(url)方法

返回乙個請求：response

２，新增data,http header

3,新增特殊情境的處理器

１：網頁需要登入時才能處理用到cookie：httpcookieprocessor

2:https加密訪問：httpshandler

後面兩種目前沒有寫過例子

三：網頁解析器

概念：從網頁中提取有價值資料的工具

網頁解析器從html網頁中爬取有價值的資料或者url的列表

網頁解析器的分類：

1，正規表示式：適用於模糊匹配

2，html.parsel

3,beautifulsoup　第三方外掛程式

beautifulsoup是結構化解析成dom樹的模型，用find_all ,find 搜素結點，搜尋節點的名稱，屬性，文字

初識python爬蟲網際網路簡單來說網際網路是由乙個個站點和網路裝置組成的大網，我們通過瀏覽器訪問站點，站點把html js css 返回給瀏覽器，這些經過瀏覽器解析渲染，將豐富多彩的網頁呈現我們眼前一什麼是爬蟲網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁...

1.python 爬蟲介紹爬蟲一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。url管理器包括待爬取的url位址和已爬取的url位址，防止重複抓取url和迴圈抓取url，實現url管理器主要用三種方式，通過記憶體資料庫快取資料庫來實現。網頁解析器將乙個網頁字串進行解...

前戲 1.你是否在節假日出行高峰的時候，想快速搶購火車票成功 2.你是否在網上購物的時候，想快速且精準的定位到口碑質量最好的商品什麼是爬蟲通過編寫程式，模擬瀏覽器上網，然後讓其去網際網路上抓取資料的過程。爬蟲的價值實際應用就業爬蟲究竟是合法還是違法的？如何在使用編寫爬蟲的過程中避免進入局子...