Python資料分析 爬蟲基本知識

2021-09-19 15:37:34 字數 1779 閱讀 8843

爬蟲:

爬蟲基本架構:

網頁解析模組

如果解析到要繼續爬取的url,返回url管理模組繼續迴圈

url管理模組:

實現方式

response = urllib.request.urlopen(url)

response.getcode()

response.read()

request = urllib.request.request(url)

request.add_head()

request.add_data()

response = urllib.urlopen(request)

通過cookie訪問

使用http.cookiejar模組

""

# 通過request訪問

request = urllib.request.request(test_url)

request.add_header(

"user-agent"

,"mozilla/5.0"

)response = urllib.request.urlopen(request)

print

(response.getcode())

# 200 表示訪問成功

print

(response.read(

))

# 通過request訪問

request = urllib.request.request(test_url)

request.add_header(

"user-agent"

,"mozilla/5.0"

)response = urllib.request.urlopen(request)

print

(response.getcode())

# 200 表示訪問成功

print

(response.read(

))

# 通過cookie訪問

# 200 表示訪問成功

print

(response.read())

print

(cookie_jar)

網頁解析模組:

實現方式:

結構化解析

document object model,樹形結構

爬蟲 資料分析 numpy

資料分析 是把隱藏在一些看似雜亂無章的資料背後的資訊提煉出來,總結出所研究物件的內在規律 資料分析三劍客 numpy,pandas,matplotlib numpy numerical python 是 python 語言的乙個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量...

python爬蟲學習 電商資料分析

6月22 24日三天密集式學習 快速帶你入門 閱讀全文 正文共769,11圖,預計閱讀時間6分鐘。通常我們在使用爬蟲的時候會爬取很多資料,而這些資料裡邊什麼是有用的資料,什麼是沒用的資料這個是值得我們關注的,在這一篇文章裡,我們將通過乙個簡單的爬蟲,來去簡單介紹下如何使用python來去做資料分析。...

Python大資料分析之網路爬蟲

d匹配乙個數字,d匹配乙個非數字,w匹配乙個字母或數字,可以匹配任意乙個字元,表示任意字元,表示至少乙個字元 表示0個或1個字元,表示n個字元,用表示n m個字元。1 d 表示匹配3個數字 2 s 表示至少匹配乙個空格 s 表示匹配任何非空白字元 s s 可以包括換行符在內的任意字元 3 d表示匹配...