小爬爬4 回顧

2022-05-10 01:31:36 字數 554 閱讀 2125

1.美團抓取回顧id是處理的核心問題!!!

2.回顧重點內容

(1)模擬登陸:

--有時我們需要爬取基於當前使用者的使用者資訊(需要登入後才可檢視)

--實現流程:

--借助於珠寶工具,抓取點選登入按鈕發起的post請求(url,引數(動態引數))

--攜帶cookie對其他子頁面進行請求傳送

注意:cookie不止用於登入,有些**也是需要借助於cookie的比如:雪球網

--cookie:

手動處理:不建議

自動處理:session (和request一樣也可以用get和post)

--問題:以後所有的需求都是用session進行請求傳送呢?

session模組比requests模組更大,耗費資源大,涉及到cookie用session就行,不涉及到我們就用requests

--**:就是**伺服器,**就是利用**伺服器傳送請求

--反爬機制有哪些(一般是一下六種):

robots

ua檢測

驗證碼cookie

禁ip動態請求引數

小爬爬2 回顧

1.爬蟲三種分類 通用爬蟲 爬取整個頁面的資料 聚焦爬蟲 爬取經過篩選過濾後的資料,基於一張頁面的區域性內容.增量式爬蟲 爬蟲監測 更新後的資料,2.什麼是ua檢測,如何破解?ua檢測 伺服器會用來通過獲取請求,通過請求獲取請求頭中的ua,通過判定ua的值,知道請求的載體身份標識.將爬蟲程式發起請求...

Python學習筆記4 回顧

回顧 手動丟擲異常 raise 異常名稱 輸出的提示資訊 raise nameerror 我出錯了 traceback most recent call last file f qianfeng python36 day08 1手動丟擲異常.py line 1,in raise nameerror ...

2017 03 20回顧 霸氣

1 仔細看了矩陣求導的公式,推出了最小二乘的引數表示式,但是矩陣求導公式本身,我嘗試推導了一下,發現沒對頭,矩陣求導的關鍵就是對其中每乙個元素分別求導,然後照著 機器學習實戰 寫了最小二乘法的 2 和群內的夥伴交流了下,也說到了是否有意去外地,這成了我最近亟待考慮的問題 3 其中提到exprian的...