1、注意很多**,可以先用**ip+ua(ua庫隨機提取)訪問,之後會返回來乙個cookie,那ip+ua+cookie就是一一對應的,然後用這個ip、ua和cookie去採集**,這樣效果會比較好
2、有些**反爬取的措施應該比較強的。訪問之後每次清除快取,這樣能有效規避部分**的檢測;但是有些**更嚴格的判斷,如果都是新鏈結從ip發出,也會被判定拒絕(直接403拒絕訪問),因此有些爬蟲客戶會去分析**的cookies快取內容,然後進行修改。
3、瀏覽器的標識(user-agent)也很重要,使用者都是一種瀏覽器,也是容易判斷作弊,要構造不同的瀏覽器標識,否則容易被判定爬蟲。用**訪問之後,瀏覽器標識需要修改,建議瀏覽器用phantomjs框架,這個可以模擬其他瀏覽器的標示(需要標示庫的話,我們可以提供1000+),可以通過api介面實現各種瀏覽器的採集模擬。
4、資訊類**(58、企查查、工商),這類**主要靠資訊提供商業服務,所以反爬措施很嚴格,非賬號(匿名)採集務必生成正確的cookie和ua,同時限制好頻率。建議通過賬號登陸來進行採集,這樣可以提高採集效率。
5、另外還需要模擬一些使用者滑鼠行為,這樣才能通過這些**的反爬措施。
7、通過流量統計和日誌分析,如果發現單個ip訪問、單個session訪問、user-agent資訊超出設定的正常頻度閾值
8、選擇正確的爬蟲**
爬蟲程式的優化
維護人員近期反應我寫的爬取某 資料的程式執行比較慢,看了一下執行爬蟲的機器的狀態,磁碟io 100 了,於是想優化一下,減少磁碟io,關於減少磁碟io的最容易想到的方法就是記憶體緩衝區,我原來的程式設計的是每抓一條資料都會插入資料庫或者更新資料庫對應的資料,由於資源有限,資料庫和爬蟲程式都放在了一台...
python爬蟲去重策略 爬蟲的去重策略
1.爬蟲時將爬取過的url存放到資料庫中,利用資料庫進行url的去重 每請求乙個url之前,都現在資料庫中查詢一下。方法最簡單,效率是最低的。2.將已經請求過的url儲存到set中,而set集合是在記憶體中建立的,訪問效率比資料庫的方式要快很多,只需要很簡單的乙個方法,就可以實現url的去重。缺點 ...
mysql 優化策略 mysql的優化策略有哪些
第一 優化你的sql和索引 1.善用explain,看看自己寫的sql到底要涉及到多少表,多少行,使用了那些索引,根據這些資訊適當的建立索引 2.善用不同的儲存引擎,mysql有多種不同的儲存引擎,innodb,aria,memory根據需要給不同的表選擇不同的儲存引擎,比如要支援transacti...