1、爬蟲
2、爬蟲的分類:
3、反爬機制
反反爬策略
4、robots,ua監測:ua偽裝
5、http和https概念:伺服器和客戶端進行資料互動的某種形式。
6、常用的頭資訊:
7、https的加密方式:證書秘鑰加密
8、request → get/post:
9、什麼是動態載入的資料:由另乙個額外的請求請求到的資料。
10、如何鑑定頁面中是否有動態載入的資料?
11、對乙個陌生**進行爬取前的第一步
1、解析:根據指定的規則對資料進行提取。
作用:實現聚焦爬蟲。
2、聚焦爬蟲的編碼流程:
3、據解析的方式:
4、資料解析的通用原理是什麼?
5、通用原理:
需求:爬取糗事百科中糗圖資料
我去開啟網頁的時候,發現糗事百科的網頁版本已經沒有了,麻了麻了。
所以找了另乙個網頁,天堂網:
import requests
# 反爬
headers =
先爬一張試試,這裡有兩個方法
方式1:
url = ''
img_data = requests.get(url=url,headers=headers).content # content返回的是byte型別的資料
方式2:
urllib就是乙個比較老的網路請求的模組,在requests模組沒有出現之前,請求傳送的操作使用的都是urllib
import requests
import re
import os
if __name__=="__main__":
#建立乙個資料夾
if not os.path.exists('./qiutulibs'):
os.mkdir('./qiutulibs')
url=''
headers =
#使用通用爬蟲對url對應的一整張頁面進行爬取
page_text = requests.get(url=url,headers=headers).text
#需要使用聚焦爬蟲將頁面中所有進行解析
# < div class ="thumb" >
# < a href = "/article/125003930" target = "_blank" >
# < img src = "" alt = "糗事#125003930"
# class ="illustration" width="100%" height="auto" >
# < / a >
# < / div >
ex= '.*?
'img_src_list = re.findall(ex,page_text,re.s)
print(img_src_list)
for src in img_src_list:
#拼接出乙個完整的url
#請求到了的二進位制資料
img_data = requests.get(url=src,headers=headers).content
#生成名稱
img_name=src.split('/')[-1]
#最終儲存的路徑
img_path='./qiutulibs/'+img_name
with open(img_path,'wb') as fp:
fp.write(img_data)
解析資料 正則,xpath
正規表示式拆分 importre 1.拆分字串 one asdsfsgsh 標準 是 s 為拆分 pattern re.compile s result pattern.split one print result 2.匹配中文 two 網頁是最新版本的,適配移動端 python中 匹配中問 a z...
資料解析之正則
聚焦爬蟲的編碼流程 指定url 發起請求 獲取響應資料 資料解析 持久化儲存 原理概述 因為解析的區域性資料都在標籤之間或者是標籤對應的屬性中進行儲存,所以首先要進行指定標籤的定位,然後對標籤或者標籤對應的屬性中儲存的資料進行提取 解析 假設有一張,其位址寫在下面的div標籤中,需求是將該位址提取出...
python爬蟲 資料解析(正則)
正則解析案例 爬取糗事百科的 糗事百科url 檢視網頁源 發現儲存的位址 import requests import re import os if name main headers 判斷是否存在qiushi資料夾,如果不存在就建立乙個 ifnot os.path.exists qiushi o...