Python資料爬取

2021-10-23 20:44:21 字數 2953 閱讀 4874

二.scrapy爬蟲框架

資料**

網路資料採集模型

第三方庫實現爬取

pyspider爬蟲框架

scrapy爬蟲框架

安裝scrapy

配置scrapy環境變數

建立scrapy專案的命令

建立spider

使用python指令碼執行命令列啟動爬蟲

from scrapy.cmdline import execute

execute(

'scrapy crawl examplespider'

.split(

))

除錯爬蟲spiders資料夾items.pypipelines.py

middlewares.py

settings.py

執行順序:

通過解析方法返回爬取頁面資料

屬性或方法

作用url

當前返回資料所對應的頁面url

status

http請求狀態碼

meta

用於request與response之間的資料傳遞

body

返回頁面html原始碼,如用純正規表示式匹配資料需要獲得頁面html原始碼

xpath()

使用xpath選擇器解析網頁

css()

使用css選擇器解析網頁

在scrapy爬蟲框架中提取網頁資料的方法

xpath語法

表示式描述

nodename

選取的節點名

/從根節點擊取

//選取所有符合條件的節點,而不考慮它們的位置

.選取當前節點

…選取當前節點的父節點

@選取屬性

路徑表示式舉例

路徑表示式

結果/bookstore

選取根元素 bookstore

/bookstore/book

選取屬於 bookstore 的子元素的所有 book 元素

//book

選取所有 book 子元素,而不管它們在文件中的位置

/bookstore//book

選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置

//@lang

選取名為 lang 的所有屬性

/bookstore/book/text()

選取屬於 bookstore 的子元素的所有 book 元素的文字

謂語

路徑表示式

結果/bookstore/book[1]

選取屬於 bookstore 子元素的第乙個 book 元素

//title[@lang]

選取所有擁有名為 lang 的屬性的 title 元素

//title[@lang=『eng』]

選取所有擁有值為 eng 的 lang 屬性的 title 元素

xpath選擇器

爬取從頁面提取的url

scrapy的item模組

將爬取資料儲存到檔案中

feed_format =

'csv'

feed_uri = 『quotes.csv』

檢視動態網頁**動態網頁的特點

爬蟲處理動態網頁的方法

**最主要的反爬蟲原因

**反爬蟲的其他原因

**反爬蟲手段舉例

爬蟲的反反爬策略

模擬自然人訪問頻率

相關配置如下配置

預設值說明

download_delay

0單位秒,爬取間隔時間為(0.5~1.5)*download_delay

concurrent_requests

16scrapy ********** 併發請求的最大值

concurrent_requests_per_domain

16對單個**進行併發請求的最大值

concurrent_requests_per_ip

0對單個ip進行併發請求的最大值

user agent介紹

scrapy設定隨機ua

cookie的介紹

使用cookie使爬蟲突破登入限制

Python爬取疫情資料

實現 輸出結果 import requests 請求庫 import pandas as pd 日期 today time.strftime y m d time.localtime format y 年 m 月 d 日 url 請求頭 headers 傳送請求 response requests....

python入門 資料爬取

很多人剛開始學習python的時候,都會聽到python能做爬蟲 資料分析等,但是為什麼要用它來做爬蟲有所不知,今天我們就來好好聊聊。做爬蟲的需求一般都是出自於實際應用的需要,比如某某 上有你喜歡的mm,你想把這些高畫質 儲存到本地。比如做安全掃瞄時,一般 都會封ip,那這個時候就需要在 爬取多個 ...

大資料 Python資料爬取

xpath語法 二 xpath選擇器 爬取從頁面提取的url scrapy的item模組 將爬取資料儲存到檔案中 爬取動態網頁 反爬蟲 爬蟲的反反爬策略 user agent介紹 cookie的介紹 檢視cookie 使用cookie使爬蟲突破登入限制 網路資料採集模型 pyspider爬蟲框架 s...