網路爬蟲(蜘蛛)Scrapy,Python安裝!

2021-06-22 05:43:46 字數 2103 閱讀 7836

scrapy,python安裝,使用!

latest python 2 release - python 2.7.6,安裝時選擇當前使用者。

2、到

pywin32-219.win-amd64-py2.7.exe

3、將c:\python27\scripts;c:\python27;新增到環境變數裡。

4、visual c++ 2008 redistributableswin32 openssl v1.0.1g light並安裝。安裝時選擇當前使用者。將openssl的bin目錄新增到環境變數(c:\openssl-win32)

5、到ez_setup.py,用python執行ez_setup.py(雙擊也行),會自動安裝好工具、

6、到zope.inte***ce-4.1.1-py2.7-win32.egg安裝,複製到python/scripts下,執行 easy_installzope.inte***ce-4.1.1-py2.7-win32.egg。(如果字尾名不是egg,修改為egg)

7、到pyopenssl-0.13-py2.7-win32.egg安裝同6。

8、到lxml-3.3.5.win32-py3.2.exe安裝

9、到twisted-14.0.0.win32-py2.7.exe安裝。(安裝時選擇當前使用者)

10、到cryptography-0.4-cp27-none-win32.whl安裝同6

11、cffi-0.8.2-cp27-none-win32.whl安裝同六

12、到service_identity-0.2-py2.py3-none-any.whl安裝同6

問題彙總:

1、如果沒安裝10-12步驟,會出現pyopenssl警告和未安裝service_identity錯誤,這兩個都人先安裝編譯器,vc2008和vc2010都可以。如果不是vc2008則要建立乙個環境變數:vs90comntools,變數值和vs100comntools一樣就可以。

2、如果出現「unable to find vcvarsall.bat」,則是沒有安裝vc2008出現的。



網路蜘蛛爬蟲原理

相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所...

Nginx防蜘蛛爬蟲處理

假定乙個場景 某個 它可能不希望被網路爬蟲抓取,例如測試環境不希望被抓取,以免對使用者造成誤導,那麼需要在該 中申明,本站不希望被抓取。有如下方法 方法一 修改nginx.conf,禁止網路爬蟲的ua,返回403。server 方法2 更目錄下增加robots.txt,放在站點根目錄下。在站點可以針...

Nginx防蜘蛛爬蟲處理

假定乙個場景 某個 它可能不希望被網路爬蟲抓取,例如測試環境不希望被抓取,以免對使用者造成誤導,那麼需要在該 中申明,本站不希望被抓取。有如下方法 方法一 修改nginx.conf,禁止網路爬蟲的ua,返回403。server 方法2 更目錄下增加robots.txt,放在站點根目錄下。在站點可以針...