爬蟲原理的解析

2021-08-20 18:26:43 字數 713 閱讀 8391

什麼是request和response

能抓怎樣的資料

怎樣來解析

抓到的資料和看到的不一樣

怎樣儲存資料

瀏覽器傳送訊息給該**所在的伺服器,這個過程叫做http request。

伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。

瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。

網頁文字:如html文件,json格式文字等。

其他:只要是能請求到的,都能獲取

直接處理

json解析

正規表示式

beautifulsoup

pyquery

xpath

文字:純文字、json、xml等。

關係型資料庫:如mysql、oracle、sql server等具有結構化表結構形式儲存。

非關係型資料庫:如mongodb、redis等key-value形式儲存。

爬蟲的原理

1 什麼是爬蟲?網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式 原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 2 爬蟲的本質 模擬瀏覽器開啟網頁,獲取網頁中想要的那部分資料 瀏覽器開啟網頁的過程如下 請求的...

爬蟲鏈結的解析

1.urlparse 屬於urllib.parse 在urlparse世界裡面,乙個標準的url鏈結格式如下 scheme nrtlooc path paramters?query fragment 所以,乙個url 我們使用urlparse的話,就可以被分成6個部分 具體操作如下 res urlp...

爬蟲解析方式

對於爬蟲解析來說,常見的解析方式有幾種 正規表示式 一種萬能的解析方式,是一種模式,可以匹配文字片段的模式來處理字串,但是編寫正規表示式不方便,常用的可有re ret re.findall a eva egon yuan 返回所有滿足匹配條件的結果,放在列表裡 print ret 結果 a a re...