2018.3.2
1)換個效能更好的電腦
2)網路使用光纖
3)使用多執行緒爬蟲
4)使用多程序爬蟲
5)分布式爬蟲
6)提公升資料的寫入速度
1)隨機修改user-agent
2)禁用cookie追蹤
3)放慢爬蟲速度
4)使用**動態更換ip(本機電腦的ip位址不變,動態ip是**ip)
5)分布式(一般用不同區域的電腦,不適用乙個區域網下,應為ip位址相同)
1)scrapy支援本地生成5種格式的文件,第一種方法是用命令列來執行。
乙個爬蟲專案中可以寫入多個爬蟲檔案,一般他們擁有相同的資料格式,應為他們要公用同樣的配置檔案settings
,items,pipielines,middlewares
python 爬蟲筆記 簡單靜態
不太懂網頁上的專業術語。1.首先檢視頁面源 檢視要爬取的資料是什麼樣的,在哪個標籤下,能不能用xpath或者bs4取出來。2.f12此頁面,重新整理檢視頁面響應時,能看到的資訊。主要是訊息頭里的請求 請求方法,host,user agent,cookie以及引數裡的資料。及時檢視響應,看出現的頁面是...
簡單的爬蟲
參考xlzd的知乎專欄 encoding utf 8 from bs4 import beautifulsoup import requests import codecs download url requests模擬http協議中的get請求,用於獲取目標 的原始碼 def download p...
簡單的爬蟲
這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...