爬蟲專欄1 型別介紹

裡面的爬蟲**可以參考我的github：

資料分析部分：

網頁抓取分為動態和靜態

動態採取json

靜態採取re，bs4，正則

首先，你需要獲得網頁的源**，才能進行後續的操作，以豆瓣為例（後面會給出我的例程）

import requests
url =
""# url不變
# 新增偽裝成瀏覽器的header
fake_headers =
response = requests.get(url, headers=fake_headers)
# 請求引數裡面把假的請求header加上
print
(response.content.decode(
'utf-8'
))

在需要的元素上右鍵，審查元素

進入開發者模式，鎖定需要的資訊

利用正規表示式進行提取（不懂的看這裡：正規表示式 - 教程）

pattern = re.
compile
('.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?)'
,        re.s)
items = re.findall(pattern, html)

這個則是通過網頁標籤來進行定位

具體操作請看：beautifulsoup解析豆瓣即將上映的電影資訊

#這個parser只是對應方法，不加也可以
soup = beautifulsoup(content,
'html.parser'
)    dl = soup.find(
'dl'
,class_=re.
compile()
)

更簡單了，對於開發者裡面的資訊，直接右鍵就可以進行提取：

具體請參考：python3爬蟲系列07之動態網頁json 資料，爬蟲要怎麼搞？

# 目標: 
# 返回的是json資料，那麼就不需要解析器了。直接轉字典就好了。
# 返回的是json，那麼就直接解碼轉為字典。不需要解析器bs了
result = json.loads(content)
tvs = result[
'subjects'
]

推薦幾個html格式網**，解析的時候眼睛看著舒服點

推薦幾款爬蟲工具

后羿採集器

八爪魚採集器

爬山虎採集器

個人推薦后羿，真的是免費使用，其他的有很大限制，希望注意

客戶端安全 xss 1型別介紹

前端防xss分兩類,1是提交資料的時候,2是渲染資料的時候 1.提交資料,即post表單,或者ajax提交資料的時候,對使用者輸入的內容進行過濾,當前由於是前端操作,隨便找個懂點的都可以通過模擬請求繞過,但是做還是要做 2.渲染資料,這個是重點,哪怕提交資料時,被繞過後端也沒有處理渲染時予以過濾...

PHP（1）型別轉換

1.檢視某個表示式的值和型別，用var dump 函式函式宣告 void var dump mixed exp mixed 用於顯示乙個或多個表示式的結構資訊，包括表示式的型別和值,無返回值 eg a array 1,array a var dump a 輸出 array 2 2.得到乙個簡單的型...

C 基礎（1）型別轉換

1.裝箱與拆箱 c 的資料型別分為基本型別和引用型別兩種，將基本型別轉成引用型別的過程，稱之為裝箱將引用型別轉成基本型別的過程，稱之為拆箱裝箱的過程，會在記憶體的堆中建立乙個基本型別的副本，請看以下來自msdn class testboxing i system.console.writ...

爬蟲專欄1 型別介紹

客戶端安全 xss 1型別介紹

PHP（1）型別轉換

C 基礎（1） 型別轉換

相關推薦

C 基礎（1）型別轉換