裡面的爬蟲**可以參考我的github:
資料分析部分:
網頁抓取分為動態和靜態
動態採取json
靜態採取re,bs4,正則
首先,你需要獲得網頁的源**,才能進行後續的操作,以豆瓣為例(後面會給出我的例程)
import requests
url =
""# url不變
# 新增偽裝成瀏覽器的header
fake_headers =
response = requests.get(url, headers=fake_headers)
# 請求引數裡面把假的請求header加上
print
(response.content.decode(
'utf-8'
))
在需要的元素上右鍵,審查元素
進入開發者模式,鎖定需要的資訊
利用正規表示式進行提取(不懂的看這裡:正規表示式 - 教程)
pattern = re.
compile
('.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?)'
, re.s)
items = re.findall(pattern, html)
這個則是通過網頁標籤來進行定位
具體操作請看:beautifulsoup解析豆瓣即將上映的電影資訊
#這個parser只是對應方法,不加也可以
soup = beautifulsoup(content,
'html.parser'
) dl = soup.find(
'dl'
,class_=re.
compile()
)
更簡單了,對於開發者裡面的資訊,直接右鍵就可以進行提取:
具體請參考:python3爬蟲系列07之動態網頁json 資料,爬蟲要怎麼搞?
# 目標:
# 返回的是json資料,那麼就不需要解析器了。直接轉字典就好了。
# 返回的是json,那麼就直接解碼轉為字典。不需要解析器bs了
result = json.loads(content)
tvs = result[
'subjects'
]
推薦幾個html格式網**,解析的時候眼睛看著舒服點
推薦幾款爬蟲工具
后羿採集器
八爪魚採集器
爬山虎採集器
個人推薦后羿,真的是免費使用,其他的有很大限制,希望注意
客戶端安全 xss 1型別介紹
前端防xss分兩類,1是提交資料的時候,2是渲染資料的時候 1.提交資料,即post表單,或者ajax提交資料的時候,對使用者輸入的內容進行過濾,當前由於是前端操作,隨便找個懂點的都可以通過模擬請求繞過,但是做還是要做 2.渲染資料,這個是重點,哪怕提交資料時,被繞過 後端也沒有處理 渲染時予以過濾...
PHP(1)型別轉換
1.檢視某個表示式的值和型別,用var dump 函式 函式宣告 void var dump mixed exp mixed 用於顯示乙個或多個表示式的結構資訊,包括表示式的型別和值,無返回值 eg a array 1,array a var dump a 輸出 array 2 2.得到乙個簡單的型...
C 基礎(1) 型別轉換
1.裝箱與拆箱 c 的資料型別分為基本型別和引用型別兩種,將基本型別轉成引用型別的過程,稱之為 裝箱 將引用型別轉成基本型別的過程,稱之為 拆箱 裝箱 的過程,會在記憶體的堆中建立乙個基本型別的副本,請看以下 來自msdn class testboxing i system.console.writ...