爬蟲專欄1 型別介紹

2021-10-05 19:08:36 字數 1791 閱讀 2639

裡面的爬蟲**可以參考我的github:

資料分析部分:

網頁抓取分為動態和靜態

動態採取json

靜態採取re,bs4,正則

首先,你需要獲得網頁的源**,才能進行後續的操作,以豆瓣為例(後面會給出我的例程)

import requests

url =

""# url不變

# 新增偽裝成瀏覽器的header

fake_headers =

response = requests.get(url, headers=fake_headers)

# 請求引數裡面把假的請求header加上

print

(response.content.decode(

'utf-8'

))

在需要的元素上右鍵,審查元素

進入開發者模式,鎖定需要的資訊

利用正規表示式進行提取(不懂的看這裡:正規表示式 - 教程)

pattern = re.

compile

('.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

.*?integer.*?>(.*?).*?fraction.*?>(.*?)'

, re.s)

items = re.findall(pattern, html)

這個則是通過網頁標籤來進行定位

具體操作請看:beautifulsoup解析豆瓣即將上映的電影資訊

#這個parser只是對應方法,不加也可以

soup = beautifulsoup(content,

'html.parser'

) dl = soup.find(

'dl'

,class_=re.

compile()

)

更簡單了,對於開發者裡面的資訊,直接右鍵就可以進行提取:

具體請參考:python3爬蟲系列07之動態網頁json 資料,爬蟲要怎麼搞?

# 目標: 

# 返回的是json資料,那麼就不需要解析器了。直接轉字典就好了。

# 返回的是json,那麼就直接解碼轉為字典。不需要解析器bs了

result = json.loads(content)

tvs = result[

'subjects'

]

推薦幾個html格式網**,解析的時候眼睛看著舒服點

推薦幾款爬蟲工具

后羿採集器

八爪魚採集器

爬山虎採集器

個人推薦后羿,真的是免費使用,其他的有很大限制,希望注意

客戶端安全 xss 1型別介紹

前端防xss分兩類,1是提交資料的時候,2是渲染資料的時候 1.提交資料,即post表單,或者ajax提交資料的時候,對使用者輸入的內容進行過濾,當前由於是前端操作,隨便找個懂點的都可以通過模擬請求繞過,但是做還是要做 2.渲染資料,這個是重點,哪怕提交資料時,被繞過 後端也沒有處理 渲染時予以過濾...

PHP(1)型別轉換

1.檢視某個表示式的值和型別,用var dump 函式 函式宣告 void var dump mixed exp mixed 用於顯示乙個或多個表示式的結構資訊,包括表示式的型別和值,無返回值 eg a array 1,array a var dump a 輸出 array 2 2.得到乙個簡單的型...

C 基礎(1) 型別轉換

1.裝箱與拆箱 c 的資料型別分為基本型別和引用型別兩種,將基本型別轉成引用型別的過程,稱之為 裝箱 將引用型別轉成基本型別的過程,稱之為 拆箱 裝箱 的過程,會在記憶體的堆中建立乙個基本型別的副本,請看以下 來自msdn class testboxing i system.console.writ...