【前提】
已經有python環境(目前安裝是python3.6版本)
對python語言有一定的基礎
一、爬蟲框架了解
這次選用的是現成的爬蟲框架scrapy ,scrapy是一套基於twisted的非同步處理框架,是純python實現的爬蟲框架。使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容或者各種。架構非常清晰,耦合度非常低,方便擴充套件
scrapy engine :scrapy 的引擎
scheduler:排程器
item pipeline:管道,封裝去重類,過濾或者儲存
spiders:爬蟲 解析處理
三、資料庫安裝,因為本人用的是windows,所以就參照前人寫好的,直接照搬就好了
四、新建專案
1、先切換到想要建立scrapy爬蟲專案的目錄下如下圖,然後用命令scrapy startproject ddpctest (ddpctest是專案名稱),建立完如下圖所示
建立成功之後,乙個scrapy的專案框架已經建立完成,可以用pycharm 開啟該專案
上圖的樹形結構中,spider目錄裡面好像是空的,我們可以用命令列建立乙個spider檔案。
i、切換到scrapy對應的spider目錄下面 cd spiders
ii、建立乙個spider檔案
>scrapy genspider ddtest_spider movie.douban.com
檔案建立成功之後,乙個基本的scrapy框架已基本完成。接下來就是學習如何使用了
一 環境安裝
1 安裝pip pip是管理安裝包的軟體,因為我環境中已經安裝了pycharm了,pip已經安裝完了。2 安裝virtualenv virtualenv可以方便的解決不同專案中對類庫的依賴問題。這通常是通過以下方式實現的 首先將常用的類庫安裝在系統環境中 然後為每個專案安裝獨立的類庫環境。這樣子可以...
python 基礎(一) 環境安裝
python 環境安裝 mac 系統 我這裡是選擇安裝 python3.7 雙擊 python 3.8.1 macosx10.9.pkg 就進入了 python 安裝嚮導,然後按照嚮導一步一步向下安裝,一切保持預設即可。圖 1 python安裝嚮導 安裝完成以後,你的 mac os x 上將同時存在...
Selenium for C 一 環境安裝
selenium 環境安裝 本地環境為vs2015,由於selenium 官網不知什麼原因打不開。特記錄下vs上使用nuget安裝selenium的步驟。利用package manager console安裝 install package selenium.webdriver version 3....