很多情況下,頁面的某些資訊需要登入才可以檢視。對於爬蟲來說,需要爬取的資訊如果需要登入才可以看到的話,那麼我們就需要做一些模擬登入的事情。
在前面我們了解了會話和 cookies 的用法。簡單來說,開啟網頁然後模擬登入,這實際上是在客戶端生成了 cookies,而 cookies 裡面儲存了 sessionid 的資訊,登入之後的後續請求都會攜帶生成後的 cookies 傳送給伺服器。伺服器就會根據 cookies 判斷出對應的 sessionid,進而找到會話。如果當前會話是有效的,那麼伺服器就判斷使用者當前已經登入了,返回請求的頁面資訊,這樣我們就可以看到登入之後的頁面。
這裡的核心就是獲取登入之後的 cookies。而要獲取 cookies,我們可以手動在瀏覽器裡輸入使用者密碼,然後再把 cookies 複製下來,但是這樣做明顯會增加人工工作量。爬蟲的目的不就是自動化嗎?所以我們要做的就是用程式來完成這個過程,也就是用程式模擬登入。
接下來,我們將介紹模擬登入的相關方法以及如何維護乙個 cookies 池。
第十章 函式
使用def關鍵字 定義個數可變的位置形參 定義個數可變的關鍵字形參 定義預設值引數 定義個數可變的位置形參 deffun1 args 結果為乙個元組 print args fun1 10,20,30 10,20,30 定義個數可變的關鍵字形參 deffun2 args 結果為乙個字典 print a...
第十章 屬性
z屬性 本章也比較簡單稍作介紹 無參屬性就是我們常見的屬性 可以封裝屬性 以執行緒安全方式訪問 有參屬性就是c 中的所引器 匿名型別 如圖遇到如下 具體點就是 上面的注釋也已經講清楚了,定義的型別之後,構造例項,然後初始化屬性。現在詳細說下 編譯器接收到 上圖 先用var 定義乙個型別,但是不具體指...
第十章 屬性
目錄 10.1 無參屬性 10.2 有參屬性 10.3 呼叫屬性訪問器方法時的效能 10.4 屬性訪問器的可訪問性 10.5 泛型屬性訪問器方法 物件導向設計和程式設計的重要原則之一就是資料封裝,意味著型別的字段不應該公開,否則很容易因為不恰單使用欄位而破壞物件的狀態。可將屬性想象成智慧型字段,即背...