python 爬蟲學習(一)環境安裝,專案建立

2021-09-26 13:31:40 字數 1109 閱讀 3434

【前提】

已經有python環境(目前安裝是python3.6版本)

對python語言有一定的基礎

一、爬蟲框架了解

這次選用的是現成的爬蟲框架scrapy ,scrapy是一套基於twisted的非同步處理框架,是純python實現的爬蟲框架。使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容或者各種。架構非常清晰,耦合度非常低,方便擴充套件

scrapy engine :scrapy 的引擎

scheduler:排程器

item pipeline:管道,封裝去重類,過濾或者儲存

spiders:爬蟲  解析處理

三、資料庫安裝,因為本人用的是windows,所以就參照前人寫好的,直接照搬就好了

四、新建專案

1、先切換到想要建立scrapy爬蟲專案的目錄下如下圖,然後用命令scrapy startproject ddpctest (ddpctest是專案名稱),建立完如下圖所示

建立成功之後,乙個scrapy的專案框架已經建立完成,可以用pycharm 開啟該專案

上圖的樹形結構中,spider目錄裡面好像是空的,我們可以用命令列建立乙個spider檔案。

i、切換到scrapy對應的spider目錄下面  cd spiders

ii、建立乙個spider檔案   

>scrapy genspider ddtest_spider movie.douban.com

檔案建立成功之後,乙個基本的scrapy框架已基本完成。接下來就是學習如何使用了

一 環境安裝

1 安裝pip pip是管理安裝包的軟體,因為我環境中已經安裝了pycharm了,pip已經安裝完了。2 安裝virtualenv virtualenv可以方便的解決不同專案中對類庫的依賴問題。這通常是通過以下方式實現的 首先將常用的類庫安裝在系統環境中 然後為每個專案安裝獨立的類庫環境。這樣子可以...

python 基礎(一) 環境安裝

python 環境安裝 mac 系統 我這裡是選擇安裝 python3.7 雙擊 python 3.8.1 macosx10.9.pkg 就進入了 python 安裝嚮導,然後按照嚮導一步一步向下安裝,一切保持預設即可。圖 1 python安裝嚮導 安裝完成以後,你的 mac os x 上將同時存在...

Selenium for C 一 環境安裝

selenium 環境安裝 本地環境為vs2015,由於selenium 官網不知什麼原因打不開。特記錄下vs上使用nuget安裝selenium的步驟。利用package manager console安裝 install package selenium.webdriver version 3....