什麼是request和response
能抓怎樣的資料
怎樣來解析
抓到的資料和看到的不一樣
怎樣儲存資料
瀏覽器傳送訊息給該**所在的伺服器,這個過程叫做http request。
伺服器收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。
瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。
網頁文字:如html文件,json格式文字等。
其他:只要是能請求到的,都能獲取
直接處理
json解析
正規表示式
beautifulsoup
pyquery
xpath
文字:純文字、json、xml等。
關係型資料庫:如mysql、oracle、sql server等具有結構化表結構形式儲存。
非關係型資料庫:如mongodb、redis等key-value形式儲存。
爬蟲的原理
1 什麼是爬蟲?網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式 原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 2 爬蟲的本質 模擬瀏覽器開啟網頁,獲取網頁中想要的那部分資料 瀏覽器開啟網頁的過程如下 請求的...
爬蟲鏈結的解析
1.urlparse 屬於urllib.parse 在urlparse世界裡面,乙個標準的url鏈結格式如下 scheme nrtlooc path paramters?query fragment 所以,乙個url 我們使用urlparse的話,就可以被分成6個部分 具體操作如下 res urlp...
爬蟲解析方式
對於爬蟲解析來說,常見的解析方式有幾種 正規表示式 一種萬能的解析方式,是一種模式,可以匹配文字片段的模式來處理字串,但是編寫正規表示式不方便,常用的可有re ret re.findall a eva egon yuan 返回所有滿足匹配條件的結果,放在列表裡 print ret 結果 a a re...