python2.7 中使用的是urllib2
python3.6 中使用的是urllib
python2.7 中使用的是urlparse
python3.6 中使用的是urllib.parse
解決方式:
給模組檔案新增 #!/usr/bin/env python3
作用:run a program in a modified environment 在修改過的環境中執行程式
「`python
from urllib import request
class html**********(object):
def download(self, url):
if url is none:
return none
response = request.urlopen(url)
if response.getcode() != 200:
return none
return response.read()
四、究極錯誤
判斷是否為none 本應是is 結果寫成in
oh **** !
終究是自己不熟練的問題
Scrapy 簡單爬蟲中遇到的問題總結
在進行item傳參時總是出現重複資料 在scrapy資料爬取中發現通過以下語句傳遞的引數會出現重複現象,導致爬取的資料出現重複和錯亂的現象。yield scrapy.request item url meta callback self.detail parse 為了解決以上問題,找到 scrapy...
Python 爬蟲中遇到的反爬蟲問題
源 一般會有下面幾種限制 1 一定時間內單個ip訪問次數,乙個正常使用者訪問 除非是隨意的點著玩,否則不會在一段持續時間內過快訪問乙個 持續時間也不會太長,我們可以採用大量不規則 ip形成乙個執行緒池,隨機從 池中選擇 模擬訪問。有兩種,透明 和匿名 2 一定時間內單個賬號訪問次數,如果乙個人一天2...
爬蟲遇到的問題
特殊字串處理的問題 第一佳大雞排 新街口店 黃燜雞公尺飯 被識別成資料夾名 處理特殊字元 dex0 line 6 find if dex0 1 line 6 line 6 0 dex0 約翰大叔 比薩 龍躍店 輸出時,有特殊字元,無法輸出。處理特殊字元 dex1 line 6 find if dex...