調出pycharm的teminal視窗
在pycharm terminal 呼叫anaconda prompt
準備環境
python 3.6
scrapy 安裝命令conda install scrapy
python環境最好是3.6的,因為python3.7之後的版本,依賴的openssl,必須要是1.1或者 1.0.2之後的版本。而本地預設版本為1.0,所以在安裝scrapy時會報錯
spider1:
爬取單網頁
在倚天屠龍記首頁 爬取章節名稱與章節鏈結
1->建立乙個新的scrapy專案
2->在items.py中定義item
# -*- coding: utf-8 -*-
# define here the models for your scraped items
## see documentation in:
# import scrapy
class
jinyongitem
(scrapy.item)
:# define the fields for your item here like:
# name = scrapy.field()
chap_name=scrapy.field(
)#章節名稱
chap_url=scrapy.field(
)#章節位址
chap_content=scrapy.field(
)#章節內容
img_url=scrapy.field(
)#位址
pass
3->編寫爬蟲程式
在spider1中編寫以下程式
import scrapy
from jinyong.items import jinyongitem
class
jinongspider
(scrapy.spider)
: name =
"spider1"
allowed_domains=
["www.jinyongwang.com"
] start_urls=
[""]def
parse
(self, response)
:for chap in response.xpath(
"//ul[@class='mlist']/li"):
item=jinyongitem(
) item[
"chap_name"
]=chap.xpath(
"a/text()"
).extract_first(
) item[
"chap_url"]=
""+chap.xpath(
"a/@href"
).extract_first(
)yield item
4->執行爬蟲並儲存結果
在將terminal的位址cd到第乙個jinyong目錄下
在terminal中執行一下語句
#存為csv
爬蟲 爬蟲初識
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料。發起請求 通過http庫向目標站點發起請求,也就是傳送乙個request,請求可以包含額外的header等資訊,等待伺服器...
爬蟲 07 反爬蟲
回到頂部 爬蟲和反爬蟲基本概念 爬蟲 自動獲取 資料的程式,關鍵是批量的獲取。反爬蟲 使用技術手段防止爬蟲程式的方法。誤傷 反爬蟲技術將普通使用者識別為爬蟲,如果誤傷過高,效果再高也不能用。成本 反爬蟲需要的人力和機器成本。攔截 成功攔截爬蟲,一般攔截率越高,誤傷率越高。反爬蟲的目的 初級爬蟲 簡單...
爬蟲(一)初識爬蟲
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...