Python網路爬蟲學習scrapy 一

2021-08-08 14:42:11 字數 1112 閱讀 6814

總結乙個今天的學習過程

1,上午繼續嘗試昨天的問題:客戶端putty登陸遠端windows不能輸入命令的問題:

可以說是坎坷的不行:原因是安裝freesshd軟體時,最後乙個是否選擇問題:是否以系統服務的方式啟動,這裡選擇否,千萬不要選擇是,這樣就可以在登陸後在輸入框中輸入命令了(這事王師兄替我嘗試安裝,他本人潛意識不喜歡系統服務的方式,嘗試成功了,才找到原因,也是醉了)

結果:選擇擱置,大腦受不了了

2,下午以及晚上就繼續嘗試學習python

複習了隔了好幾天沒學的資料庫程式設計:sqlit、mongodb、mysql

安裝scrapy

scrapy是乙個大的整體(個人認為),參考安裝連線

自己的安裝過程

注意安裝pywin32時,對於python3.6的朋友來說:可能會因為找不到登錄檔資訊   

安裝pywin32

注意221這個對於3.6版本的好用 220這個不好使

使用scrapy bench命令驗證自己的安裝是否齊全

3,學習了python的基本概念

按著網上的教程嘗試寫了乙個小的爬蟲案例,並將結果儲存到sss.csv檔案中,json等其他檔案格式,大該七八中格式

4   使用scrapy建立乙個工程

cd到乙個目錄

scrapy startproject tutorial 

cd tutorial

scrapy genspider csdn_spider blog.csdn.net

編寫items、csdn_spider piplines沒有修改

scrapy crawl dmoz_spider

可惜的是csdn好像不能爬蟲下來文章

shell

先進入網頁

scrapy shell 

使用response.xpath('/html/body/div[5]/div[1]/div[1]/dl[1]/dd/div[1]')

課檢視驗證爬取的內容

5  使用了xpath css re extract四種方法嘗試抓取不同標籤的文字

6,piplines:資料去重、資料清洗、資料儲存如json、mongodb。只是僅僅了解了概念,還沒實踐

明天加油,又是美好的一天

Python網路爬蟲學習

最近有時間學習在慕課網上跟著嵩天老師上他的python網路爬蟲與資訊提取這門課,想著可以寫些部落格將學的爬蟲知識總結起來。win平台下 前提是安裝好python,在cmd中執行 pip installl requests 其他方法的話可以在網上搜尋。r requests.get url 其中get返...

Python學習前傳 Python網路爬蟲

原來一直是linux c 開發,現在開始學習另一門面向過程的語言 python。學習一門語言,重要的在於思想,現在就以linux c 開發者的角度來學習python。我們先不講python基礎,我們直接來看一段網路爬蟲 看一下python語言的特點。那麼什麼是網路爬蟲呢?網路爬蟲,又稱為網路蜘蛛 w...

Python網路爬蟲學習(二)

十五.京東商品頁面的爬取 import requests r requests.get r.status code r.encoding r.text 1000 十六.亞馬遜商品頁面的爬取 import requests def main url try kv r requests.get url,...