校花網爬取

2022-08-04 18:42:07 字數 766 閱讀 5852

聯絡爬蟲使用

1、堆糖校花網api:

獲取資料的api:

路徑 "path":

2、簡要介紹爬蟲:

(2)從解析過程來說:

方式2:模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於資料庫或檔案中

爬蟲要做的就是方式2;

爬蟲過程圖

3、過程各個階段的主要介紹:

(1)發起請求

使用http庫向目標站點發起請求,即傳送乙個request

request包含:請求頭、請求體等 

request模組缺陷:不能執行js 和css **

(2)獲取響應內容

如果伺服器能正常響應,則會得到乙個response

(3)解析內容

解析html資料:正規表示式(re模組),第三方解析庫如beautifulsoup,pyquery等

解析json資料:json模組

解析二進位制資料:以wb的方式寫入檔案

(4)儲存資料

資料庫(mysql,mongdb、redis)或   檔案

參考部落格:

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

Python爬取散文網散文

配置python 2.7 bs4 requests 安裝 用pip進行安裝 sudo pip install bs4 sudo pip install requests 簡要說明一下bs4的使用因為是爬取網頁 所以就介紹find 跟find all find跟find all的不同在於返回的東西不同...

爬取裁判文書網 一

1 裁判文書網位址 2 分析 1 型別是動態 2 網頁源 中並沒有我們想要的頁面內容,且引用許多js 3 檢視列表頁是否有專門的json介面。4 通過開發者工具檢視network,發現了乙個json介面。即listcontent。8 根據經驗,一般引數 如下 1 某乙個url,它的響應頭 respo...