一:爬蟲是什麼
爬蟲從乙個url出發,訪問與它相關的url,自動訪問網際網路並提取資料的程式
python爬蟲的**架構:
二:url管理器
概念:管理待抓取的url集合和已抓取的url的集合
主要目的是防止重複抓取
url管理器將url集合可以放到3個地方:
1,python的記憶體中:存到set中。set()是python的一種資料結構呀,裡面的元素不重複且沒有順序 適合小型公司
2,關聯式資料庫中(mysql),主要原理:建立乙個表,將url永久儲存
3,快取資料庫(redis)支援set 支援大型資料
1,urllib是python提供的基礎模組
2,requests是python的第三方包,更加強大
1,用urllib.request.urlopen(url)方法
返回乙個請求:response
2,新增data,http header
3,新增特殊情境的處理器
1:網頁需要登入時才能處理用到cookie:httpcookieprocessor
2:https加密訪問:httpshandler
後面兩種目前沒有寫過例子
三:網頁解析器
概念:從網頁中提取有價值資料的工具
網頁解析器從html網頁中爬取有價值的資料或者url的列表
網頁解析器的分類:
1,正規表示式:適用於模糊匹配
2,html.parsel
3,beautifulsoup 第三方外掛程式
beautifulsoup是結構化解析成dom樹的模型,用find_all ,find 搜素結點,搜尋節點的名稱,屬性,文字
python爬蟲介紹 python 爬蟲簡介
初識python爬蟲 網際網路簡單來說網際網路是由乙個個站點和網路裝置組成的大網,我們通過瀏覽器訪問站點,站點把html js css 返回給瀏覽器,這些 經過瀏覽器解析 渲染,將豐富多彩的網頁呈現我們眼前 一 什麼是爬蟲 網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁...
Python 爬蟲介紹
1.python 爬蟲介紹 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。url管理器 包括待爬取的url位址和已爬取的url位址,防止重複抓取url和迴圈抓取url,實現url管理器主要用三種方式,通過記憶體 資料庫 快取資料庫來實現。網頁解析器 將乙個網頁字串進行解...
python爬蟲學習 01爬蟲介紹
前戲 1.你是否在節假日出行高峰的時候,想快速搶購火車票成功 2.你是否在網上購物的時候,想快速且精準的定位到口碑質量最好的商品 什麼是爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 實際應用 就業 爬蟲究竟是合法還是違法的?如何在使用編寫爬蟲的過程中避免進入局子...