最近畢業設計選的是python網路爬蟲,python現成的爬蟲模組有很多,scrapy,bs4等等,但是我參考的教科書上面說scrapy參考文獻較多,也比較簡單,便決定用這個模組來做爬蟲。書中的工程是用linux終端來做爬蟲,但是本人linux小白,而且更加傾向於用windows平台下的eclipse來新建專案,所以只能自己慢慢摸索著在eclipse中配置scrapy專案。
1.因為eclipse中暫不支援直接建立scrapy專案,所以我們要用cmd命令列來新建乙個scrapy專案
可以看到,用scrapy startproject +專案名這條命令建立完乙個初始的scrapy專案(此時該專案只是乙個scrapy模板,並不含爬蟲檔案)後scrapy模組很貼心的給出了提示,我們可以通過cd scrapy和 scrapy genspider example example.com這兩條命令在已有的scrapy模板下新建爬蟲檔案(一開始專案中有個spiders資料夾,其中該資料夾一開始的時候只有__init__.py這個檔案,執行命令後出現了example.py這個檔案,其中example.com是用來給該檔案中的根url初始化)。
2.在eclipse中新建乙個pydev專案,並將我們用cmd建立的scrapy專案複製到pydev專案中。這時,專案是無法執行的,因為eclispe是不知道從哪啟動scrapy專案的 ,我們需要新建乙個cmdline.py檔案(跟items.py同目錄)
其中argv中的第三個變數是自己的爬蟲名,即第一步中scrapy genspider example example.com中的example。
3.配置run configurations.
在python run中新建configuration,其中project中填專案名,main module填cmdline.py位置,arguments中的program arguments填 crawl example(前面提到的自己建立的爬蟲名),working directory中選other,位置為專案資料夾位置
如果這時候提醒沒有pypiwin32,通過pip install pypiwin32安裝pypiwin32。
最後,出現如下資訊,大功告成
配置eclipse外掛程式
有三種配置方法 一 直接把外掛程式包解壓後拷到在eclipse下的plugins目錄下即可。二 在eclipse下新建乙個目錄,如在eclipse的安裝目錄下新建乙個目錄,如thirdparty,則把外掛程式包 如 myeclipse 解壓後拷到該目錄下,然後在eclipse的安裝目錄下的links...
eclipse 環境配置
每次都要配置環境,每次都因為環境遇到各種問題,現在在這裡記下來。為了自己,為了新來的同事。1.編碼,一般都設定為utf 8,所有的。見 2.注釋,最好統一,之後複製改下自己的資訊。見 4.格式,最後大家的每行的 數等一直,不然每次格式化 git就會提示一堆修改。見 6.一些快捷鍵 主要最後在英文輸入...
Eclipse配置外掛程式
離線安裝 不推薦,把外掛程式包中features和plugins中所有檔案複製到eclipse下,不利於擴充套件 link檔案 site外掛程式 關閉eclipse 在eclipse資料夾下建立plugins ex資料夾 在plugins ex資料夾下建和外掛程式同名的資料夾並將外掛程式裡的feat...