1、path環境變數的作用:
為了讓cmd找到各種命令exe工具,配path就找exe所在目錄配置就可以了。
c:\anaconda3\scripts—找pip.exe
c:\anaconda3----python.exe
2.修改完path,要重啟cmd
pip install asyncio第五講:動態html
一、反爬策略:
1、請求頭:
—user-agent
—referer
—cookie
2、訪問頻率限制。
—**池
—再使用者訪問高峰期進行爬取,沖散日誌。12-13 7-10
—設定等待時長。time.sleep(3)
3、ajax非同步請求,用介面獲取資料。
4、能一次性獲取的資料,絕不傳送第二次請求(獲取資料的過程中儘量減少請求次數。)
5、頁面內容是js**。
selenium+phantomjs的組合進行頁面內容的獲取。
二、html頁面的技術
1、js:
頁面在請求html的過程中,伺服器返回html,同時還會請求js檔案。
2、jqery:js的庫,方便js開發。
3、ajax:web的非同步請求技術
同步請求,非同步請求。
三、selenium和phantomjs
1、什麼是selenium?
selenium乙個web自動化測試工具。【但是它本身是不帶瀏覽器】。這個工具其實就是作為一些外部工具驅動來使用的,可以控制一些外部應用來完成自動化測試。
2、phantomjs:他其實就是乙個內建無介面瀏覽器引擎。–無介面可以提高程式執行速度。
因為phantomjs是乙個瀏覽器引擎,所以他最大的功能就是執行頁面的js**。
python爬蟲基礎(3)爬蟲高階知識
cookie是指 為了鑑別使用者身份,進行繪畫跟蹤而儲存在客戶端本地的資料。本來的含義是指有始有終的一系列動作,而在web中,session物件用來在伺服器儲存特定使用者會話所需要的屬性及資訊。cookie和session他們不屬於http協議範圍,由於http協議無法保持狀態,但實際情況,我們有需...
python爬蟲高階 SVG對映反爬蟲
破解svg加密的字元,得到正確的字元 練習平台 一 svg的具體表現 二 css檔案 三 svg 四 舉例詳解 這裡選擇圖一為例 已知 類名 vhkjj4 座標 316px 141px 取正整數則為 316,141 可以自行選擇其他類名進行嘗試 usr bin env python coding u...
Python爬蟲(入門 高階)
講解方式 針對每乙個 或專題進行詳細深入的專項講解 課程亮點 具體的 資料抓取的案例和常見爬蟲問題的專項解答 課程內容 python爬蟲熱點專案,由多個 資料抓取的案例和常見問題專項解答組成 適用人群 1 希望未來從事爬蟲或反爬蟲方向工作的程式設計師。2 正在從事爬蟲工作,但對目前職業有進一步提公升...