python爬蟲問題記錄

2021-09-12 23:19:53 字數 1058 閱讀 6315

環境搭建

基本庫框架

打碼平台

pycharm官方使用文件

python命名規範

python中文文件

啟動參考:

cd/d e:\mongodb\bin

mongob --dbpath e:\mongodb\data\db

驗證是否啟動成功:

啟動參考:

cd/d e:\redis

redis-server redis.windows.conf

驗證是否啟動成功:

將python.exe所在位置添入環境變數,複製乙份python.exe,並將其命令為python3。

ajax爬取例項(豆瓣電影)|

-測試**|

-對應**|

常用正規表示式

- 快速生成scrapy專案、spidername檔案以及run.py檔案批處理**

-scrapy從安裝到實戰框架爬蟲demo|

-測試**|

-該教程相應**|

-小白高階之scrapy第一篇|

-測試**|

-該教程相應**|

pipline儲存檔案|

報錯:scrapy提示debug:filtered offsite request to參考

原因:request url的網域名稱不能和檔案中自己配置的allowed_domains不一致

解決:新增紅色部分yield scrapy.request(url,callback=self.detail,dont_filter=true)

雲打碼若快打碼

fiddler抓包工具使用

待看1|

待看2|

待看3|

Python之爬蟲學習(七) 問題記錄

1 ip質量問題 獲取到的 ip可能會失效,所以需要多次校驗ip的質量及記錄問題url重新請求 獲取時校驗 獲取可用ip print self.urlproxylist 使用時再次校驗 def getusefulproxy self proxy random.choice self.urlproxy...

python問題記錄

今天才python群裡看到乙個問題 python2.7 l x for x in hello print lprint x python3.4 l x for x in hello print l print x 兩者都可以列印出 l h e l l o 但是只有python2.7可以列印出變數x的...

Python學習問題記錄

在學習python的是後遇到點小問題,記錄下來以後忘了再來看看。一.python2 和python3在繼承父類的時候是不同的。super 是乙個特殊的函式,幫助python將父類和子類關聯起來。在python3中,直接使用如下 class father def init self,make,kkk,...